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本 书 采用 基于 项 
数据 规模 化 和 
JSON 和 PDF 文件 中 提 了 
方法 ， 如 何 从 网 站 和 API 中 提取 数据 。 

本 书 适合 数据 处 理工 作 相关 人 员 。 
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“很 少 有 学 习 资 源 能 够 像 这 本 书 一 样 既 全 面 又 通俗 易 懂 。 它 不 仅 介绍 了 你 需要 知道 的 内 容 ， 
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“这 是 一 本 实用 的 、 通 俗 易 懂 的 指南 ， 你 可 以 从 中 学 习 一 些 常见 的 不 得 不 用 代码 完成 的 任 
务 : 查找 、 提 取 、 整 理 和 检查 数据 。 





一 一 Chrys Wu， 技 术 专 家 
“经 常 有 记者 问 我 :“ 我 很 擅长 使 用 电子 表格 ， 但 下 一 步 应 该 学 些 什 么 ?” ”这 本 书 给 出 了 一 











个 很 有 价值 的 答案 。 虽 然 这 本 书 不 仅仅 面向 新 闻 业 的 读者 ， 但 它 给 出 了 一 条 清晰 的 路 径 ， 
对 于 任何 使 用 电子 表格 并 且 想 知道 如 何 提 高 技能 的 人 来 说 ， 都 可 以 沿 着 这 条 路 径 来 学 习 获 
取 、 清 洗 和 分 析 数 据 的 方法 。 它 涵盖 了 所 有 内 容 ， 从 如 何 加 载 并 检查 文本 文件 到 自动 化 屏 
幕 抓 取 ， 再 到 执行 数据 分 析 与 结果 可 视 化 的 新 的 命令 行 工具 。 

“我 曾经 使 用 陈旧 的 方式 来 分 析 数 据 并 寻找 其 中 的 意义 : 首先 使 用 电子 表格 ， 然 后 转向 关 
系 型 数据 库 和 绘图 程序 。 它 们 仍然 是 很 有 用 的 工具 ， 但 都 没有 充分 利用 自动 化 功能 ， 让 用 
户 能 够 处 理 更 多 数据 并 复制 其 工作 。 它 们 也 不 能 与 互联 网 上 的 各 种 数据 无 颖 连接 。 在 这 些 
工具 旁边 还 需要 添加 上 一 种 编程 语言 。 虽 然 我 现在 已 经 使 用 Python 和 其 他 语言 一 段 时 间 
了 ， 但 这 种 使 用 漫 无 计划 ， 并 不 系统 。 


“无 论 是 数据 处 理 还 是 工具 的 复杂 性 ， 在 过 去 20 年 中 都 在 不 断 发 展 ， 这 使 得 寻找 一 套 和 常用 
技术 更 为 重要 。 不 断 增长 的 可 用 数据 (结构 化 的 和 非 结 构 化 的 ) 以 及 可 以 用 于 存储 和 分 析 
的 数据 量 ， 都 改变 了 数据 分 析 的 可 能 性 : 许多 困难 的 问题 现在 变 得 更 容易 回答 了 ， 之 前 看 
起 来 不 可 能 的 一 些 问题 也 已 能 力 可 及 。 我 们 需要 一 种 “胶水 ， 可 以 将 数据 生态 系统 的 各 
个 组 成 部 分 ， 从 JSON API 到 数据 过 滤 与 清洗 ， 再 到 创建 图 表 来 讲 故事 ， 全 部 连接 在 一 起 。 
“在 这 本 书 中 ， 这 种 “胶水 ”就 是 Python 及 其 用 于 处 理 数 据 的 强大 的 工具 和 库 。 如 果 你 一 
直 感 觉 电子 表格 (甚至 关系 型 数据 库 ) 无 法 回答 你 想 要 提出 的 问题 ， 或 者 除 这 些 工 具 之 外 
你 已 经 准备 进一步 学 习 ， 那 么 这 本 书 非 常 适合 你 。 我 一 直 在 等 待 这 本 书 的 出 现 。 

Derek Willis ，ProPublica 新 闻 应 用 开发 者 ，OpenElections 联合 创始 人 
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欢迎 打开 这 本 书 。 在 本 书 中 ， 我 们 将 会 让 你 的 数据 处 理 技术 更 上 一 层 楼 ， 不 再 只 是 使 用 
电子 表格 ， 而 是 可 以 利用 Python 编程 语言 ， 将 噪声 数据 轻松 快速 地 转换 成 可 用 的 报告 。 
Python 语法 简单 ， 上 手 很 快 ， 人 人 都 可 以 用 Python 编程 。 


想象 一 下 ， 你 每 周 都 要 手动 重复 同一 过 程 ， 比 如 从 多 个 来 源 复制 数据 并 粘贴 到 一 个 电子 表格 
中 ， 用 于 后 续 处 理 。 这 项 任务 可 能 每 周 都 需要 花费 一 两 个 小 时 。 但 当 你 用 脚本 把 这 项 任务 自 
动 化 之 后 ， 它 可 能 只 需要 30 秒 就 可 以 完成 ! 这 会 节省 你 的 时 间 ， 让 你 做 点 其 他 事情 ， 或 者 
把 更 多 的 任务 自动 化 。 再 想象 一 下 ， 之 前 你 无 法 处 理 某 种 格式 的 数据 ， 但 你 现在 能 对 数据 进 
行 格式 转换 ， 完 成 之 前 无 法 完成 的 任务 。 但 在 完成 本 书 的 Python 练习 后 ， 你 应 该 可 以 更 有 
效 地 从 之 前 认为 不 可 用 的 数据 (过 于 混乱 ， 或 者 数据 量 过 大 ) 中 采集 信息 。 

我 们 将 带领 你 完成 数据 获取 、 数 据 清洗 、 数 据 呈 现 、 数 据 规模 化 和 自动 化 的 过 程 。 我 们 的 
目标 是 教 你 学 会 轻松 处 理 数据 的 方法 ， 这 样 你 就 可 以 花 更 多 的 时 间 专 注 于 内 容 和 分 析 。 我 
们 将 克服 现 有 工具 的 局 限 ， 将 手动 处 理 过 程 替 换 为 简洁 、 易 读 的 Python 代码 。 读 完 这 本 书 
后 ， 你 能 够 将 数据 处 理 过 程 自动 化 ， 定 期 执行 文件 编辑 和 清洗 任务 ， 获 取 并 解析 你 之 前 无 
法 获取 的 数据 ， 还 能 处 理 数 据 量 更 大 的 数据 集 。 

采用 基于 项 目的 方法 ， 每 一 章 的 复杂 度 会 逐渐 增加 。 我 们 建议 你 跟随 本 书 的 节奏 ， 将 书 中 
的 方法 应 用 到 自己 的 数据 集 上 。 如 果 你 没有 一 个 特定 的 项 目 或 研究 ， 也 可 以 使 用 本 书 线 上 
的 样本 数据 集 。 


目标 读者 


本 书 针 对 的 是 那些 不 想 用 桌面 工具 来 探索 数据 处 理 的 人 。 如 果 你 精 于 Excel， 想 进一步 提 
升 数据 分 析 水 平 ， 本 书 将 助 你 一 臂 之 力 ! 如 果 你 之 前 学 过 其 他 语言 ， 想 用 Python 学 习 数 据 
处 理 ， 也 会 发 现 本 书 非常 有 用 。 

如 果 你 遇 到 不 懂 的 问题 ， 建 议 你 联系 我 们 ， 这 样 我 们 可 以 改进 书 的 内 容 。 你 也 应 该 使 用 
互联 网 搜索 或 在 线 提问 〈 在 线 提 问 有 一 些 方法 和 技巧 ， 请 参考 https://www.propublica.org/ 
nerds/item/how-to-ask-programming-questions) 来 补充 学 习 。 我 们 在 附录 EE 中 介绍 了 一 些 调 
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试 的 技巧 ， 你 可 以 翻 到 那里 看 一 下 。 


不 适合 阅读 本 书 的 读者 


本 书 肯 定 不 适合 经 验 丰 富 的 Python 程序 员 ， 他 们 已 经 知道 数据 处 理 任务 需要 用 到 哪些 库 和 
技术 。( 对 于 这 些 人 ， 我 们 推荐 Wes McKinney 写 的 《利用 Python 进行 数据 分 析 》。) 如 果 
你 是 经 验 丰 富 的 Python 开发 者 ， 或 使 用 过 Scala、R 等 其 他 有 具有 数据 分 析 能 力 的 语言 ， 本 
书 可 能 也 不 适合 你 。 但 如 果 你 是 经 验 丰 富 的 Web 语言 开发 者 ， 使 用 的 PHP、JavaScript 等 
语言 本 身 缺 乏 数据 分 析 能 力 ， 那 么 本 书 可 以 通过 数据 处 理 来 教 你 Python 的 知识 。 


本 书 结构 


本 书 的 结构 沿 循 一 般 数 据 分 析 项 目 或 故事 的 整个 生命 周期 。 首 先 提出 一 个 问题 ， 然 后 获取 
数据 、 清 洗 数 据 、 探 索 数据 、 传 达 数 据 中 的 发 现 、 扩 展 到 更 大 的 数据 集 ， 最 后 将 整个 过 程 
自动 化 。 这 种 方法 可 以 让 你 从 简单 的 问题 逐步 过 渡 到 更 复杂 的 问题 和 研究 。 我 们 会 先 讲 传 
达 数 据 中 发 现 的 基本 方法 ， 然 后 再 讲 数据 采集 的 高 级 技巧 。 


如 果 对 某 些 章节 的 内 容 比较 熟悉 ， 你 也 可 以 将 本 书 当 作 参 芳 ， 或 者 跳 过 那些 章节 。 但 我 们 
建议 你 大 致 浏览 一 下 每 一 章节 的 内 容 ， 确 保 没有 错过 新 的 资源 与 技术 。 


什么 是 数据 处 理 


数据 处 理 是 指 将 杂乱 的 或 未 加 工 的 数据 产 转换 成 有 用 的 信息 。 先 寻找 原始 数据 产 ， 并 判断 
其 价值 : 这 些 数据 集 的 数据 质量 有 多 好 ? 它们 与 你 的 目标 是 否 相关 ? 能 否 找到 更 好 的 数 
据 源 ?在 对 数据 进行 解析 与 清洗 后 ， 数 据 集 变 得 可 用 ， 这 时 你 可 以 利用 工具 和 方法 (如 
Python 脚本 ) 来 帮 你 分 析 数 据 ， 并 以 报告 的 形式 展示 结果 。 这 样 你 可 以 将 无 人 问津 的 数据 
变 得 清晰 可 用 。 


遇 到 困难 怎么 办 


不 必 担 心 一 一 每 个 人 都 会 遇 到 困难 ! 把 编程 过 程 看 作 困难 重重 的 一 连 串 事件 。 作 为 一 名 开 
发 者 和 数据 分 析 人 员 ， 遇 到 困难 ， 然 后 解决 问题 ， 你 会 学 到 知识 ， 并 得 到 成 长 。 大 多 数 人 
并 非 掌 握 了 编程 ， 而 是 掌握 了 解决 困难 的 方法 。 

解决 困难 都 有 哪些 技巧 呢 ? 首先 ， 你 可 以 利用 搜索 引擎 答 试 寻找 答案 。 通 常情 况 下 ， 你 会 
发 现 许 多 人 已 经 遇 到 过 相同 的 问题 。 如 果 找 不 到 有 用 的 答案 ， 你 可 以 在 网 上 提问 。 我 们 在 
附录 B 中 给 出 了 一 些 优质 的 在 线 资源 和 线 下 资源 。 


提出 问题 是 很 难 的 。 但 无 论处 于 学 习 的 哪个 阶段 ， 都 不 要 害怕 向 大 型 编程 社区 求助 。 本 
书 作者 Jackie 早期 在 公共 论坛 上 问 了 一 个 关于 编程 的 问题 (http://stackoverflow.com/ 
questions/3329943/git-branch-fork-fetch-merge-rebase-and-clone-what-are-the-differences)， 之 
后 被 许多 人 引用 过 。 像 你 一 样 的 新 手 程序 员 硬 着 头皮 问 了 一 个 可 能 很 傻 的 问题 ， 但 之 后 却 
帮助 了 许多 人 ， 这 种 感觉 是 很 爽 的 。 





























































































































在 网 上 发 布 问题 之 前 ， 我 们 还 推荐 你 阅读 “如 何 提问 ”(https://www.propublica.org/nerds/ 
item/how-to-ask-programming-questions)。 这 篇 文章 讲 了 许多 方法 ， 可 以 帮 你 正确 地 描述 问 
题 ， 这 样 其 他 人 才能 最 大 限度 地 帮助 你 。 

最 后 ， 有 时 你 还 需要 现实 生 话 中 的 额外 帮助 。 可 能 是 你 的 问题 涉及 面 太 广 ， 在 网 站 或 邮件 
列表 里 不 方便 问答 。 也 可 能 是 你 的 问题 有 些 偏重 哲学 ， 或 者 需要 不 同方 法 之 间 的 对 比 或 修 
改 。 无 论 是 哪 种 情况 ， 你 都 可 以 在 当地 Python 小 组 中 找到 能 回答 你 问题 的 人 。 想 要 找到 当 
地 的 线 下 聚会 ， 你 可 以 试 试 Meetup 网 站 (http://www.meetup.com/)。 关 于 如 何 找 到 有 帮助 
且 乐 于 助人 的 社区 ， 你 会 在 第 1 章 中 读 到 更 多 详细 信息 。 


排版 约定 
本 书 使 用 了 下 列 排版 约定 。 
。 楷体 
表示 新 术语 和 重点 强调 的 内 容 。 
。 等 宽 字 体 (constant width ) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 词 等 。 
。 斜体 等 宽 字体 (constant width italic) 
表示 应 该 替换 成 用 户 输入 的 值 ， 或 根据 上 下 文 替 换 的 值 。 























该 图 标 表示 提示 或 建议 。 


该 图 标 表示 一 般 性 说 明 。 





该 图 标 表示 警告 或 警示 。 





使 用 代码 示例 


我 们 在 GitHub 上 建 了 一 个 数据 仓库 (https://github.com/jackiekazil/data-wrangling)。 在 这 
个 仓库 中 ， 你 会 找到 我 们 在 本 书 中 使 用 的 数据 ， 以 及 一 些 代码 示例 ， 让 你 可 以 跟 上 本 书 的 
节奏 。 如 果 你 在 仓库 中 发 现任 何 问题 或 者 有 任何 疑问 ， 请 提交 一 个 issue (issue 提交 地 址 : 
https://github.com/jackiekazil/data-wrangling/issues ) 。 
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本 书 是 要 帮 你 完成 工作 的 。 一 般 来 说 ， 如 果 本 书 提供 了 示例 代码 ， 你 可 以 把 它 用 在 你 的 程 
序 和 文档 中 。 除 非 你 使 用 了 很 大 一 部 分 代码 ， 否 则 无 需 联 系 我 们 获得 许可 。 比 如 ， 用 本 书 
的 几 个 代码 片段 写 一 个 程序 就 无 需 获 得 许可 。 Ga > 发 O'Reilly 图 书 的 示例 光盘 则 需要 
获得 许可 。 引 用 本 书 中 的 示例 代码 来 回答 问题 无 需 获 得 许可 。 将 书 中 大 量 示 例 代 码 放 到 你 
的 产品 文档 中 则 需要 获得 许可 。 

我 们 很 希望 但 并 不 强制 要 求 你 在 引用 本 书 内 容 时 加 上 引用 说 明 。 引 用 说 明 一 般 包括 书 名 、 
作者 、 出 版 社 和 ISBN。 比 如 :“Data Wrangling with Python by Jacqueline Kazil and Katharine 
Jarmul (O’Reilly). Copyright 2016 Jacqueline Kazil and Kjamistan, Inc., 978-1-4919-4881-1.” 


如 果 你 觉得 自己 对 示例 代码 的 用 法 超出 了 上 述 许可 的 范围 ， 欢 迎 你 通过 permissions@ 
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第 1 章 


Python 简介 





无 论 你 是 一 名 记者 、 分 析 师 ， 还 是 初出 茅 庐 的 数据 科学 家 ， 选 择 这 本 书 可 能 是 因为 你 想 学 
习 如 何 用 编程 来 分 析 数 据 ， 得 出 结论 ， 并 将 结论 清楚 地 传达 给 别人 。 你 可 能 会 用 报告 、 图 
表 或 归纳 统计 的 方式 来 展示 你 的 结论 。 重 要 的 是 ， 你 想 讲述 一 个 故事 。 
传统 的 故事 讲述 或 新 闻 报 道 往往 使 用 单一 的 故事 来 描述 总 体 结论 或 趋势 。 在 这 种 故事 中 ， 
数据 成 为 了 相对 次 要 的 部 分 。 然 而 ， 其 他 讲 故 事 的 人 ， 比 如 Christian Rudde [Datacylsm 
(http://dataclysm.org/) 的 作者 ，OkCupid 的 创始 人 之 一 ] 认为 数据 本 身 应 该 是 故事 的 重点 。 
首先 ， 你 需要 确定 想 要 研究 的 主题 。 你 可 能 对 研究 不 同人 或 群体 的 沟通 习惯 感 兴趣 ， 这 时 
你 可 以 从 一 个 具体 的 问题 入 手 ， 例 如 在 网 络 上 被 人 们 广 为 分 享 的 信息 都 有 哪些 特点 。 又 或 
许 你 可 能 对 棒球 的 历史 统计 数据 感 兴趣 ， 并 想 弄 清楚 一 个 问题 : 这 些 数据 能 否 表明 棒球 运 
动 随时 间 发 生 了 变化 。 

确定 了 感 兴趣 的 领域 之 后 ， 你 需要 寻找 数据 ， 以 进一步 探索 这 一 主题 。 想 研究 人 类 行 
为 ， 你 可 以 从 Twitter API (https://dev.twitter.com/overview/api) 中 获取 数据 ， 研 究 人 们 在 
Twitter 上 分 享 的 内 容 。 如 果 想 深入 研究 棒球 历史 ， 你 可 以 使 用 Sean Lahman 的 棒球 数据 库 


(http://www.seanlahman.com/baseball-archive/ statistics/) 。 

Twitter 和 棒球 数据 集 都 属于 综合 的 大 型 数据 集 。 为 了 回答 你 的 具体 问题 ， 应 把 这 些 数据 集 
分 成 便于 管理 的 小 块 ， 然 后 进行 算 选 和 分 析 。 有 时 ， 较 小 的 数据 集 也 同样 有 趣 有 料 ， 尤 其 
当 你 的 主题 是 关于 本 地 或 区 域 问题 时 。 让 我 们 来 看 一 个 例子 。 

在 写 这 本 书 的 时 候 , 本 书 的 一 位 作者 读 到 一 篇 关于 她 的 公立 高 中 母校 的 文章 (http://www. 
foxnews.com/on-air/fox-and-friends/blog/2014/05/20/manatee-high-school-charges-200-row- 
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注 1: 美国 公立 高 中 是 政府 办 的 学 校 , 财政 主要 由 当地 社区 的 税收 资助 。 孩 子 们 在 这 里 上 学 受 教育 是 免费 的 ， 
或 只 需 花 父 母 很 少 的 钱 。 


prime-seating-graduation)。 文 中 写 道 ， 这 所 高 中 开始 向 每 名 即将 毕业 的 学 生 收 取 20 美元 ， 
并 且 对 于 毕业 典礼 上 最 好 的 几 排 座位 ， 每 排 收取 200 美元 。 

据 当 地 新 闻 报 道 :“ 学 区 今年 财政 困难 ， 撤 出 了 3400 美元 的 资助 。 新 的 收费 是 为 了 支付 海 
牛 高 中 约 12 000 美元 的 毕业 典礼 费用 而 采取 的 措施 之 一 。” 

这 篇 文章 解释 了 毕业 上 典礼 花费 远 高 于 学 区 预算 的 原因 。 然 而 文中 并 没有 解释 学 区 今年 为 何 
无 法 像 往年 一 样 进行 资助 。 所 以 我 们 仍 有 疑问 : 海牛 郡 学 区 的 财政 为 何如 此 困难 ， 以 至 于 
无 法 像 往 年 一 样 资助 毕业 班级 ? 

调查 之 初 所 提出 的 疑问 ， 往 往 会 引出 更 深入 的 疑问 ， 直 指 问题 的 本 质 。 例 如 ， 学 区 把 钱 都 
花 到 了 什么 地 方 ? 学 区 的 开支 模式 近 些 年 发 生 了 哪些 变化 ? 

确定 了 有 具体 的 主题 和 要 回答 的 问题 ， 可 以 让 我 们 明确 需要 寻找 哪些 数据 。 在 提出 上 述 问题 
后 ,我 们 要 寻找 的 第 一 个 数据 集 就 是 海牛 郡 学 区 的 开支 和 预算 数据 。 

在 继续 讨论 之 前 ， 我 们 先 简单 回顾 一 下 整个 过 程 ， 从 开始 确定 问题 一 直到 最 终 的 故事 〈 见 
图 1-1)。 















解析 与 清洗 
数据 











图 1-1: 数据 处 理 过 程 


一 旦 确定 了 问题 ， 你 就 可 以 开始 提出 有 关 数 据 的 问题 ， 例 如 : 哪些 数据 集 最 能 帮助 我 讲 好 
故事 ?哪些 数据 集 能 帮助 我 深入 探索 这 一 主题 ? 总 的 主题 是 什么 ?哪些 数据 集 与 这 些 主题 
相关 ? 谁 会 记录 并 保存 这 些 数 据 ? 可 以 公开 获取 这 些 数据 集 吗 ? 











在 开始 讲 故 事 时 ， 你 应 该 专心 研究 想 要 回答 的 问题 。 然 后 你 可 以 找 出 哪些 数 
据 集 对 你 是 最 有 价值 的 。 在 这 个 初始 阶段 ， 不 要 过 分 纠结 于 分 析 数 据 的 工具 
或 数据 处 理 过 程 。 




















寻找 数据 集 
如 果 使 用 搜索 引擎 来 寻找 数据 集 ， 你 不 一 定 总 能 找到 最 合适 的 。 有 时 你 需要 在 一 个 网 
站 中 仔细 寻找 数据 。 即 使 数据 难以 找到 或 难以 获取 ， 也 一 定 不 要 放弃 1 


如 果 你 的 主题 出 现在 一 份 调查 或 报告 中 ， 或 者 某 个 特定 的 机 构 或 组 织 可 能 会 收集 关于 
这 一 主题 的 数据 ， 你 应 该 去 查找 联系 人 号 码 ， 并 联系 研究 人 员 或 组 织 。 礼 狐 而 直接 地 
询问 如 何 能 够 访问 他 们 的 数据 。 如 果 数 据 集 属于 政府 部 门 (联邦 、 州 或 地 方 )， 那 么 
根据 (美国 ) 信息 自由 法 案 (https://en.wikipedia.org/wiki/Freedom_of_Information_Act_ 
(United_States)) ， 你 也 许可 以 合法 地 直接 获取 这 些 数 据 。 我 们 将 在 第 6 章 中 更 全 面 地 
讨论 数据 获取 。 











一 且 确 定 了 需要 的 数据 集 并 获取 了 这 些 数据 ， 你 需要 将 其 转换 成 可 用 的 格式 。 在 第 3、4、 
5 章 中 ， 你 将 会 学 习 各 种 方法 ， 用 于 通过 编程 的 方式 获取 数据 并 对 其 进行 格式 转换 。 第 6 
章 讲 的 是 在 获取 数据 时 如 何 与 不 同 的 人 打交道 ， 并 稍稍 提 到 合法 性 的 问题 。 在 第 3 章 至 第 
5 章 中 ， 我 们 还 将 介绍 如 何 从 CSV、Excel、XML、JSON 和 PDF 文件 中 提取 数据 。 在 第 
11、12、13 章 中 ， 你 将 会 学 习 如 何 从 网 站 和 API 中 提取 数据 。 























如 果 你 不 认识 某 些 缩写 词 ， 别 担心 ! 在 遇 到 这 些 缩写 词 时 我 们 会 详细 解释 ， 
也 会 一 并 解释 其 他 你 可 能 不 熟悉 的 技术 术语 。 








在 取得 数据 并 转换 格式 后 ， 你 将 开始 初步 的 数据 探索 。 你 将 会 探寻 数据 中 可 能 隐藏 的 所 有 
故事 ， 同 时 判断 哪些 故事 有 用 ， 哪 些 故 事 可 以 舍弃 。 你 还 可 以 把 数据 分 组 ， 观 察 各 组 之 间 
的 变化 趋势 。 然 后 还 可 以 将 数据 集合 并 ， 寻找 其 中 的 关联 ， 发 现 更 大 的 趋势 ， 并 发 现 潜在 
的 巴 盾 之 处 。 在 这 一 过 程 中 ， 你 将 学 习 如 何 清洗 数据 ， 发 现 并 解决 隐藏 在 数据 集中 的 问 
题 。 


在 第 7 章 和 第 8 章 中 你 将 学 习 如 何 解 析 与 清洗 数据 。 你 既 可 以 使 用 Python， 也 可 以 探索 其 
他 开源 工具 。 在 讨论 可 能 遇 到 的 数据 问题 时 ， 你 将 学 会 应 该 选择 哪 种 方法 清洗 数据 : 是 写 
一 个 清洗 脚本 ， 还 是 使 用 现成 的 方法 。 在 第 7 章 中 ， 我 们 将 讲 到 如 何 处 理 常见 的 错误 ， 如 
重复 记录 、 离 群 值 与 格式 化 问题 。 


在 确定 你 要 讲述 的 故事 ， 清 洗 并 处 理 数 据 之 后 ， 我 们 将 探讨 如 何 利 用 Python 来 展示 数据 。 
尔 将 学 习 用 各 种 形式 来 讲 故 事 ， 并 比较 不 同 的 发 布 方式 。 在 第 10 章 中 ， 你 将 学 习 在 网 站 
上 展示 与 组 织 数据 的 基本 方法 。 


第 14 章 将 使 数据 分 析 过 程 规模 化 ， 让 你 可 以 在 更 短 的 时 间 内 处 理 更 多 的 数据 。 我 们 将 对 
存储 与 获取 数据 的 方法 进行 分 析 ， 并 研究 在 云 中 使 数据 规模 化 的 方法 。 

第 14 章 还 将 讨论 如 何 完 成 一 次 性 的 项 目 ， 并 使 其 能 够 自动 完成 。 通 过 自动 化 过 程 ， 你 可 
以 将 一 次 性 的 特殊 报告 变 成 年 度 报告 。 这 种 自动 化 可 以 让 你 专注 于 改善 讲 故事 的 过 程 ， 继 
续 讲 下 一 个 故事 ， 或 者 至 少 续 杯 咖啡 。 本 书 主要 使 用 的 工具 是 Python 编程 语言 。 在 我 们 讲 
故事 过 程 的 每 一 步 ， 从 最 初 的 探索 直到 标准 化 与 自动 化 ， 都 会 用 到 Python 。 
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1.1 为 什么 选择 Python 


有 那么 多 种 编程 语言 ， 本 书 为 什么 选择 使 用 Python ? 你 可 能 听 说 过 以 下 这 些 语言 中 的 一 种 
或 多 种 : R、MATLAB、Java、C/C++、HTML、JavaScript 和 Ruby， 这 取决 于 你 的 专业 背 
景 。 这 些 语 言 都 有 一 种 或 多 种 主要 用 途 ， 有 些 还 可 以 用 于 数据 处 理 。 你 也 可 以 用 Excel 等 
程序 进行 数据 处 理 。 用 Excel 和 Python 编程， 通常 会 得 到 相同 的 结果 ， 但 其 中 一 种 语言 的 
效率 更 高 。 然 而 有 时 候 ， 像 Excel 这 样 的 程序 无 法 完成 任务 。 我 们 选择 Python 而 不 是 其 他 
语言 ， 是 因为 Python 很 容易 上 手 ， 处 理 数据 的 过 程 也 简单 明了 。 


如 果 你 想 了 解 Python 和 其 他 语言 的 技术 性 区 别 ， 可 查阅 附录 A。 看 完 里 面 的 解释 ， 你 就 
可 以 告诉 其 他 分 析 师 或 开发 人 员 你 使 用 Python 的 原因 。 我 们 相信 作为 开发 新 人 ， 你 会 从 
Python 的 易 用 性 中 受益 ， 同 时 我 们 希望 本 书 能 成 为 你 的 数据 处 理工 具 箱 中 有 参考 价值 的 一 
本 书 。 

Python 除了 上 述 作 为 语言 的 优点 ，Python 社区 还 是 最 开放 和 最 乐于 助人 的 社区 之 一 。 世 上 
没有 完美 的 社区 ， 但 Python 社区 为 新 人 创造 了 一 个 良好 的 环境 有 时 会 有 本 地 的 教程 、 免 
费 课 堂 、 线 下 聚会 等 ， 有 了 时 还 会 举办 大 型 会 议 ， 人 们 聚 在 一 起 解决 问题 并 分 享 知 识 。 

拥有 大 型 社区 的 好 处 显而易见 一 一 有 人 能 回答 你 的 问题 ， 有 人 能 为 你 的 代码 或 模块 的 结构 
出 谋划 策 ， 有 人 能 让 你 学 习 借 鉴 ， 还 有 共享 代码 供 你 在 其 之 上 构建 自己 的 代码 。 想 了 解 更 
多 的 内 容 ， 可 查阅 附录 B。 

社区 因 成 员 的 支持 而 存在 。 刚 开始 使 用 Python 时 ， 你 从 社区 中 得 到 的 帮助 会 多 于 你 的 付 
出 。 但 即使 你 不 是 专家 ， 也 可 以 为 社区 做 很 多 贡献 。 我 们 鼓励 你 分 享 你 的 问题 和 解决 方 
法 。 这 会 帮 有 到 下 一 个 遇 到 相同 问题 的 人 ， 你 也 可 能 会 在 开 产 工具 中 发 现 需要 处 理 的 bug。 


在 现 阶 段 ， 你 是 从 新 鲜 视角 看 待 问题 ， 而 Python 社区 的 很 多 成 员 已 经 不 再 这 


样 看 待 问题 了 。 当 开始 训 Python 代码 时 ， 你 应 该 把 自己 当 作 编程 社区 的 一 
员 。 你 的 贡献 与 那些 有 20 年 编程 经 验 的 人 一 样 重要 。 





























































































































言 归 正 传 ， 我 们 开始 讲 Python。 


1.2 开始 使 用 Python 


编程 的 第 一 步 是 最 难 的 。( 其 难度 和 你 学 习 走 路 时 迈 的 第 一 步 没有 什么 不 同 ! ) 回想 一 下 
你 培养 新 爱好 或 学 习 新 运动 的 时 候 。 在 入 门 Python (或 任何 其 他 编程 语言 ) 时 ， 你 将 会 
遇 到 类 似 的 焦虑 和 障碍 。 或 许 你 很 幸运 ， 有 一 个 优秀 的 导师 帮 你 迈 出 第 一 步 。 如 果 没 有 的 
话 ， 你 可 能 已 经 历 过 类 似 的 挑战 。 无 论 你 如 何 迈 出 第 一 步 ， 一 定 要 记 住 ， 这 个 阶段 往往 是 
最 艰难 的 。 









































我 们 希望 本 书 可 以 成 为 你 的 入 门 指南 ， 但 它 无 法 替代 优秀 的 导师 或 使 用 
Python 的 丰富 经 验 。 在 本 书 中 ， 我 们 提供 了 一 些 资 源 和 网 站 信息 ， 以 便 你 在 
遇 到 书 中 没有 讲 到 的 问题 时 有 所 参考 。 











为 了 避免 浪费 太 多 时 间 进 行 大 量 配置 和 高 级 安装 ， 我 们 的 Python 环境 将 采用 最 简单 的 初始 
安装 。 在 接 下 来 的 几 节 中 ， 我 们 将 选 定 Python 版 本 ， 安 装 Python 以 及 一 个 可 以 帮助 我 们 
使 用 外 部 代码 和 库 的 工具 (pip)， 并 安装 代码 编辑 器 ， 以 便 编写 并 运行 代码 。 


1.2.1 Python 版 本 选择 


你 需要 选择 使 用 哪个 版 本 的 Python。Python 版 本 实际 上 指 的 是 Python 解释 器 的 版 本 。 解 
释 器 让 你 可 以 在 计算 机 上 读 写 并 运行 Python。 维基 百科 (https://en.wikipedia.org/wiki/ 
Interpreter_ (computing)) 是 这 样 描述 解释 器 的 : 

在 计算 机 科学 中 ， 解 释 器 是 一 种 计算 机 程序 ， 可 以 直接 运行 用 编程 语言 或 脚本 语 

言 编 写 的 指令 ， 而 无 需 事先 将 其 编译 成 机 器 语言 程序 。 
没有 人 会 让 你 背诵 这 个 定义 ， 所 以 即使 你 没有 完全 理解 也 不 必 担 心 。 本 书 的 作者 之 一 
Jackie 刚 开 始 编程 的 时 候 ， 无 法 理解 入 门 书 中 “ 批 处 理 编 译 ”(batch compiling) 这 一 概念 ， 
所 以 她 就 卡 在 这 一 部 分 无 法 继续 读 下 去 。 如 果 她 连 这 都 不 懂 ， 怎 么 能 编程 呢 ? 我 们 在 后 国 
会 讨论 编译 的 话题 ， 但 是 现在 将 上 述 定义 总 结 如 下 : 

解释 器 是 读 取 并 运行 Python 代码 的 计算 机 程序 。 
Python (或 Python 解释 器 ) 主要 有 两 个 版 本 : Python 2.X 和 Python 3.X。Python 2.X 的 最 新 
版 本 是 Python 2.7， 这 也 是 本 书 使 用 的 Python 版 本 。Python 3.X 的 最 新 版 本 是 Python 3.5， 
这 也 是 最 新 可 用 的 Python 版 本 。 目 前 你 可 以 认为 Python 2.7 的 代码 无 法 在 Python 3.4 中 运 
行 。 专 业 的 说 法 是 ，Python 3.4 破坏 了 向 后 兼容 。 
你 可 以 写 出 同时 兼容 Python 2.7 和 Python 3.4 的 代码 ， 但 这 既 非 本 书 的 要 求 ， 也 不 是 本 书 
的 重点 。 一 开始 就 在 这 件 事 情 上 花费 大 量 精力 ， 就 好 比 住 在 佛罗里达 州 的 人 担心 如 何在 雪 
中 开车 一 样 *。 有 一 天 你 可 能 会 需要 这 项 技能 ， 但 此 时 此 刻 这 并 不 是 你 需要 关注 的 重点 。 
有 些 读者 可 能 会 好 奇 我 们 为 何 决定 使 用 Python 2.7 而 不 是 Python 3.4。 这 个 话题 在 Python 
社区 中 是 很 有 和 争议 的 。Python 2.7 是 被 广泛 使 用 的 版 本 ， 而 Python 3.X 正在 被 逐步 接受 。 
我 们 之 所 以 选择 Python 2.7， 是 想 保证 你 能 够 找到 容易 阅读 且 容 易 获 取 的 资源 ， 并 确保 你 
的 操作 系统 及 服务 支持 你 使 用 的 Python 版 本 。 


本 书 中 的 很 多 代码 在 Python 3 中 也 可 以 运行 。 如 果 你 想 在 Python 3 中 运 
行 其 中 一 些 示 例 ， 当 然 可 以 ;但 我 们 更 希望 你 专注 于 学 习 Python 2.7， 在 
学 完 本 书后 再 继续 学 习 Python 3。 为 了 兼容 Python 3 需要 修改 代码 ， 想 了 
解 这 方面 的 更 多 内 容 ， 可 以 查看 官方 更 改 文档 : https://docs.python.org/3.0/ 
whatsnew/3.0.html。 






















































































在 阅读 本 书 的 过 程 中 ， 你 会 用 到 自己 编写 的 代码 ， 还 会 用 到 其 他 ( 牛 ) 人 编写 的 代码 。 这 
些 外 部 代码 大 部 分 都 可 以 在 Python 2.7 下 运行 ， 但 可 能 无 法 兼容 Python 3.4。 如 果 你 正在 
使 用 Python 3 的 话 ， 需 要 重 写 代码 〈 如 果 对 遇 到 的 每 一 段 代 码 都 要 进行 重 写 和 编辑 ， 这 会 
浪费 大 量 的 时 间 ， 你 可 能 很 难 完成 第 一 个 项 目 ) 。 














注 2: 美国 佛罗里达 州 又 名 “阳光 之 州 "， 一 年 四 季 很 少 下 雪 。 一 一 译 者 注 
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把 你 的 第 一 段 代 码 当 作 草稿 ， 以 后 你 可 以 回来 进一步 修订 完善 。 现 在 我 们 开始 来 安装 Python。 


1.2.2 ”安装 Python 


好 消息 是 ，Python 可 以 在 所 有 操作 系统 上 运行 。 坏 消息 是 ， 不 同 操作 系统 的 安装 方法 有 所 
不 同 。 按 照 Python 编程 的 流行 程度 排序 ， 我 们 将 讨论 两 个 主要 的 操作 系统 : Mac OS X 和 
Windows。 如 果 你 用 的 是 Mac OS 义 或 Linux， 可 能 已 经 安装 了 Python。 想 了 解 更 详细 的 安 
装 过 程 ， 我 们 推荐 以 你 的 Linux 发 行 版 加 “Python 高 级 安装 ”(advanced Python setup) 为 
关键 词 在 Web 上 搜索 ， 以 寻求 更 多 建议 。 


与 Windows 系统 相 比 ， 在 OS X 系统 和 Linux 系统 上 安装 和 运行 Python 要 容 
易 一 些 。 想 深入 了 解 这 种 差异 存在 的 原因 ， 我 们 推荐 阅读 Windows 和 基于 
Unix 的 操作 系统 的 历史 。 可 以 对 照 阅读 这 两 篇 文章 : 一 篇 是 Hadeel Tariq Al- 
Rayes 写 的 “Studying Main Differences Between Linux & Windows Operating 
Systems” (http://www.ijens.org/vol_12_i_04/126704-8181-ijecs-ijens.pdf), 文中 


的 观点 支持 Unix， 另 一 篇 是 微软 的 “Functional Comparison of UNIX and 
Windows” (https://technet.microsoft.com/en-us/library/bb496993 .aSPX 及 











如 果 你 用 的 是 Windows， 应 该 也 可 以 运行 所 有 的 代码 ;但 是 在 Windows 下 可 能 还 需要 安 
装 代码 编译 器 和 额外 的 系统 库 ， 以 及 设置 环境 变量 。 

为 了 安装 Python 并 能 正常 使 用 ， 请 根据 你 的 操作 系统 安装 提示 ， 按 照相 应 的 步骤 来 操作 。 
我 们 还 将 进行 一 系列 的 测试 ， 确 保 一 切 正常 运行 ， 然 后 才能 进入 下 一 章 。 

1. Mac OS X 系 统 

首先 打开 终端 (http://en.wikipedia.org/wiki/Terminal_(OS_X))， 一 个 让 你 可 以 和 计算 机 进行 交 
互 的 命令 行 界面 。 个 人 计算 机 (PC) 刚刚 出 现时 ， 你 只 能 通过 命令 行 界面 与 计算 机 交互 。 现 
在 大 多 数 人 用 的 都 是 图 形 界面 操作 系统 ， 因 为 这 种 操作 系统 访问 更 方便 ， 用 户 也 更 加 广泛 。 
有 两 种 方法 可 以 在 计算 机 上 找到 终端 。 第 一 种 方法 是 通过 OS X 系统 的 Spotlight。 点 击 
Spotlight 图 标 一 一 屏幕 右上 角 的 放大 镜 一 一 输入 “Terminal”。 然 后 选择 出 现在 “应 用 程 
序 ”(Applications) 类 别 旁 边 的 图 标 。 


选 定之 后 ， 会 弹出 一 个 类 似 图 1-2 中 的 小 窗口 (请 注意 ,你 的 Mac OS X 版 本 不 同 ， 界 面 
可 能 也 会 有 所 不 同 ) 。 























加 站 会 中 GO 三 
77 terminal @ 
Show All in Finder 


Terminal Top Hit Terminal 


Version 2.4 

Copyright © 1991-2013 Apple Inc. 
All rights reserved. Look Up [~ terminal 
8.9 MB 

Last modified Aug 25, 2013, 1:08:37 AM 


Applications ” 画 Terminal 


Web Searches ©@ Search Web for “terminal” 
@ Search Wikipedia for "terminal” 


Applications » Utilities Spotlight Preferences... 














1-2: 利用 Spotlight 搜索 终端 





6 | 第 1 章 


你 还 可 以 通过 Finder 启动 终端 。 终 端 位 于 “实用 工具 ”(Utilities) 文件 夹 : 应 用 程序 
(Applications) 一 实用 工具 (Utilities) 一 终端 (Terminal) 。 


选择 并 局 动 终端 后 ， 你 应 该 会 看 到 类 似 图 1-3 的 界面 。 








全 jacquelinekazil 一 bash 一 80x24 


Last login: Wed Jun 11 23:06:05 on ttys000 
Jacquelines-MacBook-Pro:~ jacquelinekazil$ 目 














图 1-3: 新 打开 的 终端 窗口 


现在 最 好 在 适当 的 位 置 (比如 在 Dock 中 ) 创建 终端 的 快捷 方式 ， 这 样 以 后 启动 终端 会 比 
较 方 便 。 你 只 需 在 Dock 中 的 终端 图 标 上 点 击 右键 ， 依 次 选择 “选项 ”(Options) 和 “在 
Dock 中 保留 ”(Keep in Dock)， 即 可 创建 终端 的 快捷 方式 。 运 行 本 书 中 的 每 一 个 练习 都 需 
要 启动 终端 。 

大 功 告 成 。Mac 电脑 预 装 了 Python， 你 无 需 再 做 其 他 事情 。 如 果 你 想 设置 计算 机 使 其 能 够 
使 用 后 面 的 高 级 库 ， 请 查看 附录 D。 

2. Windows 8 和 Windows 10 

Windows 并 没有 预 装 Python， 但 有 专门 的 Python 安装 程序 (https://www.python.org/ 
downloads/windows/)。 你 需要 和 弄 清 楚 你 的 Windows 是 32 位 还 是 64 位 (http:Wwindows. 
microsoft.com/en-us/windows7/find-out-32-or-64-bit) 。 如 果 你 用 的 是 64 位 Windows， 需 要 从 
下 载 页 面 下 载 x86-64 MSI 安装 程序 ， 如 果 不 是 64 位 的 话 ， 你 可 以 下 载 x86 MSI 安装 程序 。 
下 载 好 安装 程序 之 后 ， 只 需 双击 它 ， 按 照 提 示 一 步 步 安装 即 可 。 我 们 建议 选择 为 所 有 用 户 
安装 。 点 击 靠近 选项 的 方 框 选中 全 部 ， 同 时 选择 在 硬盘 上 安装 Python 特性 ( 见 图 1-4)。 

成 功 安 装 Python 后 ， 你 需要 将 Python 加 入 到 环境 设置 中 。 这 样 你 就 可 以 在 cmd 工具 
(Windows 下 的 命令 行 界面 ) 中 与 Python 交互 。 要 做 到 这 一 点 ， 只 需 在 计算 机 中 搜索 “ 环 
境 变量 ”(environment variable) 。 选 择 “ 编 辑 系统 环境 变量 ”(Edit the system environment 
variables) 选项 ， 然 后 点 击 “环境 变量 …”(Environment Variables...) 按钮 ( 见 图 1-5) 。 
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Customize Python 2.7.9 (64-bit) 


Select the way you want features to be installed. 
Click on the icons in the tree below to change the 
way features will be installed. 








variable. This 


Register Extensions 
To/Tk 
Documentation 
Utility Scripts 
pip 
Test suite 
Add python.exe to Path 
中 Willbe installed on local hard drive 
Prepend EN a Entire feature will be installed on local hard drive 





Entire feature will be unavailable 


This feature requires OKB on your hard drive. 


























< Back | Next > 




















图 1-4: 利用 安装 程序 添加 Python 特性 

















Computer Name | Hardware 





Advanced 








System Protection | Remote 











Perfomance 


User Profiles 


Start-up and Recovery 
System start-up, system failure and debugging information 





You must be logged on as an Administratorto make most of these changes. 


Wisual effects, processor scheduling, memory usage and virtual memory 


Desktop settings related to your signin 
























































图 1-5: 编辑 环境 变量 


(System variables) 列表 下 拉 ， 选 择 Path 变量 ， 然 后 点 击 “编辑 ”(Edit) 。 
如 果 列 表 中 找 不 到 Path 变量 ， 点 击 “ 新 建 ”(New) 创建 一 个 新 的 Path 变量 。 











人 Path 变量 的 末尾 ， 注 意 每 一 个 路 径 之 间 要 用 分 号 隔 开 (包括 已 有 内 容 末 


C:\Python27;C:\Python27\Lib\site-packages\;C:\Python27\Scripts\; 


Path 变量 的 末尾 应 该 类 似 图 1-6 所 示 。 编 辑 好 环境 变量 之 后 ， 点 击 “ 确 定 ”(OK) 来 保存 
设置 。 











System Properties 








Computer Name | Hardware | Advanced | System Protection | Remote 
Environment Variables 区 到 













































































Path 
IentsVPT;P:Python27;C:Python27\Saipts 
[ok || cam 
Variable Value 个 
Os Windows_NT 
| Pa 由 C:WProgramDataWDradeVavaVavapath;,,. 
| PATHEXT ,COM;.EXE;.BAT;.CMD;.VBS;.VBE;.]JS;..,， 
PCBRAND Pavilion - 
] ' 
| New... || Edt.. || Delete 
| 
| 
一 | ok Cancel 
_ 生 











图 1-6: 将 Python 加 入 Path 系统 变量 


1.2.3 测试 Python 


现在 你 应 该 已 经 打开 命令 行 (终端 或 cmd )， 准 备 启动 Python。 在 Mac 上 命令 行 的 结尾 应 
该 是 $ 符号 ， 在 Windows 上 应 该 是 > 符号 。 在 提示 符 后 输入 python， 然 后 按 Return (或 
Enter) 键 : 








$ python 
一 切 正常 的 话 ， 你 应 该 会 看 到 Python 提示 符 (>>>)， 如 图 1-7 所 示 。 





注 3: 想 在 Windows 上 打开 cmd 工具 ， 只 需 搜 索 “ 命 令 提 示 符 ”(Command Prompt), 或 者 打开 “所 有 程序 
(All Programs) ， 依 次 选择 “附件 ”(Accessories) 和 “命令 提示 符 ”(Command Prompt) 。 
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Jacquelines-MacBook-Pro:~ jacquelinekazil$ python 

Python 2.7.5 (default, Mar 9 2014, 22:15:05) 

[GCC 4.2.1 Compatible Apple LLVM 5.0 (clang-500.0.68)] on darwin 

Type "help", "copyright", "credits" or "license" for more information. 
>>> 











1-7: Python 提示 符 

















对 于 Windows 用 户 ， 如 果 没 有 出 现 Python 提示 符 ， 请 检查 Path 变量 的 设置 是 否 正 确 (如 
前 文 所 述 )， 软 件 是 否 均 已 正确 安装 。 如 果 你 用 的 是 64 位 版 本 ， 可 能 需要 印 载 Python (可 
以 用 下 载 的 MSI 文件 对 Python 安装 进行 修改 、 卸 载 和 修复 )， 并 尝试 安装 32 位 版 本 。 这 
样 还 不 行 的 话 ， 我 们 建议 你 将 安装 过 程 中 遇 到 的 具体 错误 信息 放 到 网 上 去 搜索 。 


>>> 与 $ 或 > 的 对 比 

Python 提示 符 与 系统 提示 符 (在 Mac/Linux 上 是 $, 在 Windows 上 是 >) 有 
所 不 同 。 初 学 者 往往 犯 这 样 的 错误 : 在 默认 的 终端 提示 符 后 面 输入 Python 命 
令 ， 而 在 Python 解释 器 中 输入 终端 命令 。 两 种 情况 都 会 报错 。 遇 到 报错 时 ， 
记 住 上 面 这 两 种 错误 ， 检 查 确 认 你 只 在 Python 解释 器 中 输入 Python 命令 。 

如 果 把 本 应 输入 到 系统 终端 的 命令 输入 到 Python 解释 器 中 ， 可 能 会 出 现 
NameError (命名 错误 ) 或 SyntaxError (语法 错误 )。 而 如 果 在 系统 终端 中 输 
入 Python 命令 ， 可 能 会 出 现 bash 错误 Command not found。 


























Python 解释 器 启动 时 给 出 了 几 行 有 用 的 信息 。 其 中 一 行 显示 的 是 我 们 正在 使 用 的 Python 版 
本 (图 1-7 中 显示 的 是 Python 2.7.5)。 这 一 信息 在 错误 排查 过 程 中 非常 重要 ， 因 为 有 些 时 
候 ， 某 些 命令 或 工具 可 以 在 这 一 版 本 的 Python 中 正常 运行 ， 在 另 一 版 本 中 却 无 法 正常 运行 。 


下 面 我 们 用 import 语句 来 快速 测试 一 下 Python 的 安装 是 否 成 功 。 在 Python 解释 器 中 输入 
下 列 代码 : 
import sys 


import pprint 
pprint.pprint(sys.path) 


代码 的 输出 应 该 是 一 个 列表 ， 列 表 里 面 是 你 计算 机 中 的 许多 目录 或 位 置 。 这 个 列表 给 出 的 
是 Python 程序 寻找 Python 文件 的 具体 位 置 。 当 你 想 要 排查 Python 的 模块 导入 错误 上 时， 这 
一 组 命令 十 分 有 用 。 


掉 是 一 个 输出 实例 〈 你 的 计算 机 输出 的 列表 可 能 会 有 所 不 同 ， 还 需要 注意 的 是 ， 为 了 适 
应 本 书 的 页 面 宽度 ， 对 某 些 内容 进 行 了 折 行 ) : 


[ 
wusr tocal /Lb /python 7/site-packages/setuptools-4.0.1- py2. 7.egg', 
'/usr/local/lib/python2.7/site-packages/pip-1.5.6-py2.7.egg', 
'/usr/local/Cellar/python/2.7.7_1/Frameworks/Python.framework/Versions/2.7/ 
lib/python27.zip', 
'/usr/local/Cellar/python/2.7.7_1/Frameworks/Python.framework/Versions/2.7/ 






































才 
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lib/python2.7', 
'/usr/local/Cellar/python/2.7.7_1/Frameworks/Python.framework/Versions/2.7/ 
Lib/python2.7/Lib-tk' ， 
'/Library/Python/2.7/site-packages', 
'/usr/local/lib/python2.7/site-packages'] 


如 果 代 码 运 行 失败 ， 你 会 得 到 错误 信息 。 调 试 Python 错误 最 简单 的 方法 就 是 阅读 错误 信 
息 。 例 如 ， 如 果 你 输入 的 是 import sus 而 不 是 import sys， 你 会 看 到 以 下 输出 : 


>>> import sus 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ImportError: No module named sus 





阅读 最 后 一 行 : ImportError: No module named sus。 这 人 句 话 的 意思 是 出 现 了 模块 导入 错 
误 ， 因 为 Python 中 没有 sus 模块 。Python 搜 遍 计算 机 中 的 文件 ， 设 有 找到 名 为 sus 且 可 导 
入 的 Python 文件 或 文件 夹 。 

如 果 在 融 本 书 代码 时 犯 了 拼写 错误 ， 可 能 会 引发 语法 错误 。 在 接 下 来 的 例子 中 ， 我 们 故意 
把 pprint.pprint 拼 错 ， 输 入 的 是 pprtnt.print(sys.path() ) : 











>>> pprint.print(sys.path()) 
File "<stdin>", line 1 
pprint.print(sys.path()) 
八 


SyntaxError: invalid syntax 
上 面 我 们 是 故意 输 错 的 ， 但 在 本 书 的 写作 过 程 中 ， 本 书 的 一 位 作者 真 的 输 错 了 这 行 代码 。 
你 要 习惯 于 在 出 现 错误 时 排查 并 解决 错误 。 你 也 应 该 承认 ， 作 为 开发 人 员 ， 错 误 是 学 习 过 
程 的 一 部 分 。 我 们 希望 你 能 对 错误 习以为常 。 你 应 该 把 错误 看 作 一 次 学 习 的 机 会 ， 可 以 让 
你 学 习 Python 和 编程 的 新 知识 。 
模块 导入 错误 和 语法 错误 都 是 代码 开发 过 程 中 最 常见 的 错误 ， 并 且 也 是 最 容易 解决 的 。 在 
遇 到 错误 时 ， 网 络 搜索 引擎 是 帮 你 处 理 错误 的 得 力 助手 。 
在 进入 下 一 节 之 前 ， 一 定 要 退出 Python 编辑 器 。 这 样 你 就 回 到 了 终端 或 cmd 的 提示 符 界 
面 。 输 入 以 下 代码 来 退出 Python ; 

exit() 
现在 你 的 提示 符 应 该 变 回 了 $ (Mac/Linux) 或 > (Windows)。 在 下 一 章 中 我 们 将 进一步 研 
究 Python 解释 器 。 接 下 来 我 们 来 安装 一 个 叫 作 pip 的 工具 。 
































1.2.4 安装 pip 

pip (http://pip.readthedocs.org/en/latest/) 是 用 于 管理 Python 共享 代码 和 库 的 命令 行 工 具 。 
程序 员 经 常会 解决 相同 的 问题 ， 所 以 会 分 享 他 们 的 代码 来 帮助 他 人 。 这 也 是 开源 软件 文化 
的 一 个 重要 组 成 部 分 。 

Mac 用 户 可 以 通过 在 终端 中 运行 下 载 的 简单 Python 脚本 来 安装 pip (https://pip.pypa.io/en/ 
latest/installing/#install-pip) 。 你 需要 与 下 载 的 脚本 处 于 同一 文件 夹 。 例 如 ， 如 果 你 将 脚本 
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下 载 到 Downloads 文件 夹 中 ， 你 需要 在 终端 中 进入 这 个 文件 夹 。 在 Mac 上 有 一 种 简单 的 方 
法 ， 按 住 Command 键 (Cmd) ， 然 后 把 Downloads 文件 夹 拖 入 终端 中 。 另 一 种 方法 是 输入 
一 些 简单 的 bash 命令 (附录 C 中 有 对 bash 更 全 面 的 介绍 )。 首 先 在 终端 中 输入 以 下 命令 : 


cd ~/Downloads 


这 条 命令 将 计算 机 的 目录 切换 到 主 文件 夹 下 的 Downloads 子 文件 夹 。 为 了 检查 你 是 否 位 于 
Downloads 文件 夹 下 ， 在 终端 中 输入 以 下 命令 : 


pwd 


这 条 命令 可 以 在 终端 中 显示 你 的 当前 工作 目录 ， 即 你 现在 位 于 的 文件 夹 。 它 的 输出 应 该 是 
类 似 下 面 这 样 的 内 容 : 

/Users/your_name/Downloads 
如 果 输 出 没 问 题 ， 你 只 需 用 这 个 命令 就 可 以 运行 该 文件 : 

sudo python get-pip.py 


由 于 你 运行 的 是 sudo 命令 (你 正在 用 特殊 权限 运行 该 命令 , 这样 才 可 以 在 受 限 区 域 安装 软 
件 包 )， 系 统 会 提示 你 输入 密码 。 你 应 该 可 以 看 到 安装 软件 包 的 一 系列 提示 信息 。 


Windows 上 可 能 已 经 安装 了 pip (Windows 的 Python 安装 包 自 带 pip)。 要 
检查 是 否 安装 了 pip， 你 可 以 在 cmd 工具 中 输入 pip install ipython。 如 
果 系 统 报错 的 话 ， 去 下 载 pip 安装 脚本 ， 用 chdir C:\Users\YOUR _NAME\ 
Downloads 命令 将 目录 切换 到 Downloads 文件 夹 (把 YOUR_NAME 换 成 你 计算 
机 主 目录 的 名 字 )。 然 后 ， 你 应 该 可 以 输入 python get-pip.py 来 运行 下 载 的 
文件 。 你 需要 管理 员 权 限 来 确保 正确 安装 。 


在 使 用 pip 时 ， 你 的 计算 机 在 PyPI (https://pypi.python.org/pypi) 上 搜索 指定 的 代码 包 或 代 
码 库 ， 将 其 下 载 到 计算 机 中 并 安装 。 你 无 需 使 用 剖 览 器 来 下 载 代码 库 ， 省 去 了 许多 肥 烦 。 


安装 工作 已 经 基本 完成 。 最 后 一 步 是 安装 代码 编辑 器 。 


1.2.5 ”安装 代码 编辑 器 


在 写 Python 代码 时 需要 一 个 代码 编辑 器 ， 因 为 Python 需要 特殊 的 间距 、 缩 进 和 字符 编码 
才能 正常 运行 。 有 多 种 代码 编辑 器 可 供 选 择 。 本 书 的 一 位 作者 使 用 Sublime。 它 是 免费 的 ， 
但 在 你 使 用 一 段 时 间 后 会 建议 你 象征 性 地 支付 一 点 费用 ， 以 支持 当下 和 未 来 的 开发 。 你 可 
以 在 http://www.sublimetext.com 下 载 Sublime。 田 一 款 完 全 免费 且 跨 平台 的 文本 编辑 器 是 
Atom (https:Watom.io ) 。 


有 些 人 对 代码 编辑 器 比较 挑剔 。 你 不 一 定 要 使 用 我 们 推荐 的 编辑 器 ， 但 我 们 建议 不 要 使 用 
Vim、Vi 或 Emacs， 除 非 你 用 过 这 些 工 具 。 一 些 编 程 的 纯粹 主义 者 只 用 这 些 工具 来 写 代 码 
(本 书 的 一 位 作者 就 是 这 样 )， 因 为 他 们 可 以 完全 用 键盘 来 操纵 编辑 器 。 但 是 ， 如 果 你 没有 
任何 经 验 就 选择 这 些 编辑 器 的 话 ， 可 能 会 在 阅读 本 书 的 过 程 中 困难 重重 ， 因 为 你 要 同时 学 
习 两 件 事 情 。 
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一 次 只 学 习 一 件 事 情 ， 多 试用 几 款 编辑 器 ， 直 到 找到 可 以 让 你 轻松 自如 写 代 
码 的 那 一 款 。 对 于 Python 开发 来 说 ， 最 重要 的 是 要 有 一 款 用 起 来 舒服 的 编辑 
器 ， 同 时 支持 许多 文件 类 型 (能 支持 Unicode 和 UTF-8)。 








下 载 选 定 的 编辑 器 并 安装 之 后 ， 运 行程 序 检查 是 否 安 装 成 功 。 








1.2.6 ”安装 IPython (可 选 ) 


如 果 你 想 安 装 更 高 级 的 Python 解释 器 ， 我 们 推荐 安装 一 个 叫 Python 的 库 (下 载 地 址 : 
http://ipython.org/install.html) 。 在 附录 下 中 我 们 讲 了 IPython 的 人 优点、 用例， 以 及 如 何 安装 
IPython。IPython 并 不 是 必需 的 ， 但 它 在 Python 入 门 阶段 十 分 有 用 。 


1.3 小结 


本 章 我 们 学 习 了 两 个 常见 的 Python 版 本 。 为 了 能 够 继续 学 习 数 据 处 理 ， 我 们 还 完成 了 一 些 
初始 安装 工作 : 

(1) 我 们 安装 并 测试 了 Python; 

(2) 我 们 安装 了 pip; 

(3) 我 们 安装 了 代码 编辑 器 。 

想 要 入 门 Python， 这 是 最 基本 的 安装 。 随 着 对 Python 和 编程 的 深入 学 习 ， 你 会 发 现 还 有 
更 复杂 的 安装 与 设置 。 现 在 我 们 的 目标 是 让 你 尽快 上 手 ， 而 不 是 纠结 于 繁琐 的 安装 过 程 。 
如 果 你 想 了 解 更 高 级 的 Python 安装 内 容 ， 请 查阅 附录 D。 

在 阅读 本 书 的 过 程 中 ， 你 可 能 会 用 到 需要 高 级 安装 的 工具 。 那 时 我 们 将 教 你 如 何 从 现 有 基 
本 安装 中 创建 更 复杂 的 安装 。 现 在 ， 我 们 之 前 讲 的 安装 内 容 已 经 可 以 让 你 迈 出 学 习 Python 
的 第 一 步 了 。 

恭喜 ， 你 已 经 完成 了 初始 安装 ， 还 第 一 次 运行 了 几 行 Python 代码 ! 在 下 一 章 里 ， 我 们 将 开 
台 学 习 Python 的 基本 概念 。 
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第 2 和 章 


Python 基础 











和 面 你 已 经 在 计算 机 上 安装 并 运行 了 Python， 下面 我 们 来 学 习 一 些 Python 的 基础 知识 。 
续 章 节 的 内 容 都 建立 在 这 些 概念 的 基础 上 ， 我 们 需要 首先 掌握 这 些 概 念 。 
在 上 一 章 中 ， 我 们 利用 下 面 儿 行 代码 测试 了 Python 的 安装 是 否 成 功 : 


import sys 
import pprint 
pprint.pprint(sys.path) 


读 完 本 章 ， 你 将 会 明白 上 面 每 一 行 代码 的 含义 ， 并 学 会 相关 术语 ， 能 够 说 明 上 述 代码 的 作 
用 。 你 还 将 学 习 Python 的 各 种 数据 类 型 ， 对 Python 的 入 门 概念 有 基本 的 了 解 。 


我 们 会 讲 得 比较 快 ， 把 重点 放 在 学 习 后 续 章 节 时 需要 知道 的 内 容 。 后 续 章节 中 我 们 还 会 根 
据 需要 讲 一 些 新 概念 。 我 们 希望 这 种 方法 能 让 你 将 这 些 新 概念 应 用 于 感 兴趣 的 数据 集 和 问 
题 ， 并 从 中 学 到 东西 。 

首先 我 们 启动 Python 解释 器 。 本 章 的 Python 代码 都 在 解释 器 中 运行 。 浏 览 一 遍 本 章 这 样 
的 介绍 性 内 容 是 很 容易 的 ， 但 我 们 要 着 重 强调 动手 敲 代码 的 重要 性 。 与 学 习 一 门口 语 类 
似 ， 在 实践 中 学 习 是 最 有 效 的 学 习 方法 。 在 你 输入 本 书 练习 代码 并 运行 的 过 程 中 ， 会 遇 到 
量 的 错误 ， 而 调试 过 程 (解决 这 些 错误 的 过 程 ) 会 让 你 学 到 很 多 知识 。 








逊 性 












































启动 Python 解释 器 
在 第 1 章 里 我 们 学 过 如 何 启 动 Python 解释 器 。 提 醒 一 下 ， 你 首先 需要 打开 命令 行 工 
具 ， 然 后 输入 python (如 果 你 安装 了 附录 下 中 提 到 的 IPython， 也 可 以 输入 LPython) : 








python 


你 应 该 会 看 到 类 似 这 样 的 输出 (注意 ， 提 示 符 已 经 切换 成 Python 解释 器 的 提示 符 ) : 
Python 2.7.7 (default, Jun 2 2014, 18:55:26) 
[GCC 4.2.1 Compatible Apple LLVM 5.1 (clang-503.0.40)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 
如 果 没 有 特别 说 明 的 话 ， 本 章 后 面 我 们 输入 的 所 有 内 容 部 是 在 Python 解释 器 中 输入 
的 。 如 果 你 用 的 是 IPython， 提 示 符 是 类 似 In [1]: 这 样 的 。 


2.1 基本 数据 类 型 
本 节 将 学 习 Python 中 的 简单 数据 类 型 。 这 些 数据 类 型 都 在 Python 的 信息 处 理 过 程 中 发 挥 
重要 人 作用。 我们 要 学 习 的 数据 类 型 包括 字符 串 型 、 整 型 、 浮 点 型 和 其 他 非 整 数 类 型 。 


2.1.1 字符 串 
我 们 要 学 习 的 第 一 个 数据 类 型 是 字符 串 型 。 你 之 前 可 能 没有 在 这 种 语 境 下 听 过 “字符 串 ” 
这 个 词 ， 但 字符 串 实 际 上 就 是 用 引号 标记 的 文本 。 字 符 串 里 可 以 包含 数字 、 字 母 和 符号 。 
下 面 都 是 字符 串 的 例子 ; 

"Cat 

"This is a string.' 

'5' 

'walking' 

"SG00barBaz340 
将 上 面 任 一 字符 串 输 入 到 Python 解释 器 里 ， 解 释 器 会 返回 相同 的 内 容 。 程 序 仿佛 在 说 ， 
“ 嘿 ， 我 听 到 你 了 。 你 说 的 是 "cat' (或 任何 你 输入 的 内 容 )。” 
只 要 字符 串 位 于 成 对 的 引号 ( 单 引 号 或 双 引 号 都 可 以 ) 之 间 ， 其 内 容 无 关 紧 要 。 字 符 串 的 
首尾 必须 用 相同 的 引号 〈( 单 双 均 可 ) : 

"Cat 

"cat" 
上 面 两 个 例子 在 Python 中 的 含义 是 相同 的 。 两 种 情况 下 ，Python 都 会 返回 单 引 号 的 
'cat' 。 有 些 人 习惯 于 在 代码 中 使 用 单 引 号 ， 另 一 些 人 更 喜欢 用 双 引 号 。 无 论 你 用 哪 种 引 
号 ， 重 要 的 是 前 后 风格 要 保持 一 致 。 本 书 的 两 位 作者 更 喜欢 用 单 引 号 ， 因 为 输入 双 引 号 需 
要 按 住 Shift 键 。 输 入 单 引 号 可 以 偷懒 。 


2.1.2 ”整数 和 浮 点 数 
我 们 要 学 习 的 第 二 种 和 第 三 种 数据 类 型 是 整 型 和 浮 点 型 ， 这 是 Python 中 处 理 数字 的 方法 。 
首先 来 看 整 型 。 
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1. 整数 
你 可 能 还 记得 数学 课 上 学 过 的 整数 ， 但 如 果 你 忘记 了 ， 整 数 是 指 整数 (an integer is a whole 
number)。 下 面 是 一 些 整数 的 例子 : 

















10 
1 

0 
“1 
-10 


将 上 面 的 整数 输入 到 Python 解释 器 里 ， 解 释 器 会 返回 相同 的 内 容 。 


注意 ， 上 一 市 的 字符 串 例子 中 有 一 个 是 '5'。 如 果 输 入 的 数字 是 在 引号 中 ，Python 会 将 其 
看 作 字 符 串 。 在 下 面 的 例子 中 ， 第 一 个 值 和 第 二 个 值 并 不 相等 : 














5 
由 

想 测 试 二 者 是 否 相等 ， 可 以 在 解释 器 中 输入 : 
时 


== 符号 是 用 来 测试 两 个 值 是 否 相 等 。 测 试 的 返回 值 是 真 True) 或 假 (False)。 返 回 值 是 
另 一 种 Python 数据 类 型 ， 叫 作 布尔 型 。 后 面 会 讲 到 布尔 型 ， 这 里 先 简单 学 习 一 下 。 布 尔 型 
可 以 判断 语句 是 真 还 是 假 。 在 上 面 的 语句 中 ， 我 们 问 Python: 整数 5 与 字符 串 '5' 是 否 相 
等 ?9 Python 返回 了 什么 ? 怎样 才能 让 语句 的 返回 值 为 True ? (提示 : 试 一 下 两 个 都 是 整 
数 或 两 个 都 是 字符 串 的 情况 ! ) 


你 可 能 想 知道 ， 为 什么 有 人 会 把 数字 当 作 字 符 串 来 存储 。 有 时 是 因为 使 用 不 当 一 一 例如 ， 
代码 将 数字 存储 成 '5' ， 而 实际 上 应 该 存储 成 5， 设 有 引号 。 再 举 一 个 例子 ， 字 段 内 容 是 人 
工 填写 的 ， 里 面 可 能 既 包 含 字符 串 又 包含 数字 (例如 ， 调 查 中 人 们 可 能 输入 “五 ”“5” 或 
“V”)。 它 们 都 是 数字 ,但 是 数字 的 不 同 表示 方式 。 在 这 种 情况 下 ， 你 可 能 会 先 把 它们 存储 
成 字符 串 ， 后 面 再 进行 处 理 。 
将 数字 存储 为 字符 串 ， 最 常见 的 原因 之 一 是 故意 这 么 做 ， 例 如 美国 邮政 编码 的 存储 。 美 国 
的 邮编 共 包 含 五 位 数字 。 在 新 英格兰 地 区 和 东北 部 的 其 他 地 方 ， 邮 编 是 以 0 开头 的 。 在 
Python 解释 器 中 试 着 输入 波士顿 的 一 个 邮编 ， 一 次 作为 字符 串 输 入 ， 一 次 作为 整数 输入 。 
出 现 了 什么 情况 ? 

'02108， 

02108 


在 第 二 个 例子 中 ，Python 会 抛 出 一 个 语法 错误 [syntaxError， 报 错 信息 为 无 效 的 标记 
(invalid token)， 并 且 有 一 个 箭头 指向 开头 的 0]。 在 Python 以 及 许多 其 他 语言 中 ,“ 标 
记 ”(token) 是 指 特殊 的 单词 、 符 号 和 标识 符 。 在 上 面 的 例子 中 ，Python 不 知道 如 何 处 理 
以 0 开头 的 数 〈( 非 八进制 的 数 ) ， 这 意味 着 它 是 一 个 无 效 的 标记 。 

2. 浮 点 数 、 小 数 和 其 他 非 整 数 类 型 

Python 处 理 非 整数 的 运算 有 许多 种 方法 。 如 果 你 不 了 解 每 一 种 非 整 数 数据 类 型 的 运算 方 
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法 ， 这 些 方法 可 能 会 令 人 感到 困惑 ， 而 且 似乎 引入 了 侈 人 误差 。 

在 Python 中 使 用 非 整 数 时 ，Python 默认 将 其 转换 成 浮 点 数 。 译 点 数 的 表示 方法 采用 的 是 
各 版 本 Python 内 置 的 浮 点 数据 类 型 。 也 就 是 说 ，Python 存储 的 是 该 数值 的 近似 值 一 一 仅 
反映 特定 精度 水 平 的 近似 值 。 

在 Python 解释 器 中 输入 下 面 这 两 个 数字 ， 注 意 二 者 之 间 的 不 同 : 


之 
2.0 


第 一 个 是 整数 。 第 二 个 是 浮 点 数 。 我 们 做 点 计算 ， 进 一 步 了 解 这 些 数字 的 运算 规则 ， 以 及 
Python 如 何 对 它们 进行 求 值 。 在 Python 解释 器 中 输入 : 

2/3 
发 生 了 什么 ? 你 得 到 的 返回 值 是 9， 但 你 可 能 本 来 以 为 会 是 0.6666666666666666、 
9.6666666666666667 或 类 似 的 数字 。 问 题 在 于 ， 这 些 数字 都 是 整 型 ， 整 型 无 法 完成 分 数 运 
算 。 我 们 试 着 把 其 中 一 个 数字 变 成 浮 点 数 : 

2.0/3 
现在 我 们 得 到 了 更 精确 的 答案 : 0.6666666666666666。 如 果 输 入 的 数字 中 有 一 个 是 浮 点 数 ， 
计算 的 结果 也 是 浮 点 数 。 
如 前 文 所 述 ，Python 中 的 浮 点 数 可 能 会 引起 精度 问题 (https://docs.python.org/2/tutorial/ 
floatingpointhtml)。 浮 点 数 的 运算 速度 很 快 ， 但 正 是 因为 这 一 点 ， 浮 点 数 不 够 精确 。 


从 原理 上 来 说 ，Python 与 你 和 计算 器 对 待 数字 的 方式 都 不 同 。 在 Python 解释 器 中 试 试 下 
面 这 两 个 例子 : 















































0.3 
O01 +0.2 

对 于 第 一 行 代码 ，Python 返回 0.3。 对 于 第 二 行 代码 ， 你 本 来 希望 返回 9.3， 但 实际 上 
你 得 到 的 返回 值 是 9.36999999699666694，6.3 和 9.30099666669996664 这 两 个 值 并 不 相 
等 。 如 果 对 其 中 的 细微 差别 感 兴趣 ， 可 查阅 Python 文档 (https://docs.python.org/2/tutorial/ 
floatingpoint.html#tut-fp-issues) 了 解 更 多 内 容 。 


在 本 书 中 ， 需 要 考虑 精度 问题 时 ， 我 们 将 使 用 decimal 模块 (或 库 ，https://docs.python. 
org/2/library/decimal.html)。 模 块 是 可 导入 使 用 的 代码 段 或 代码 库 。decimal 模块 可 以 让 数 
字 (整数 或 浮 点 数 ) 的 运算 结果 符合 预期 (与 你 在 数学 课 上 学 到 的 概念 一 致 ) 。 


在 下 面 的 例子 中 ， 第 一 行 代码 从 decimal 模块 中 导入 了 getcontext 和 Decimal， 这 样 我 们 
就 可 以 在 解释 器 环境 中 使 用 它们 。 接 下 来 的 两 行 代码 利用 getcontext 和 Decimal 来 做 之 前 
用 浮 点 数 做 过 的 数学 运算 : 

from decimal import getcontext, Decimal 


getcontext().prec = 1 
Decimal(0.1) + Decimal(0.2) 


























运行 上 面 的 代码 ，Python 会 返回 Decimal('0.3')。 现 在 你 输入 print DecimaL(0.3)， 
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Python 会 返回 0.3， 这 也 正 是 我 们 本 来 希望 看 到 的 值 (而 不 是 0.30000000000000004) 。 
我 们 来 一 行 一 行 地 阅读 这 三 行 代码 : 


from decimal import getcontext, Decimal 
getcontext().prec = 1 
Decimal(0.1) + Decimal(0.2) 


@Oe© 


@ 从 decimal 模块 中 导入 getcontext 和 Decimal。 

@ 将 舍 入 精度 设 定 为 一 位 小 数 。decimal 模块 将 大 部 分 的 舍 入 和 精度 设置 保存 在 默认 的 上 
下 文 (context) 中 。 本 行 代码 将 上 下 文 的 精度 改 成 只 保留 一 位 小 数 。 

@ 对 两 个 小 数 (一 个 值 为 6.1， 一 个 值 为 6.2) 求 和 。 


如 果 修 改 getcontext().prec 的 值 会 怎么 样 ? 动手 试 一 下 ， 然 后 重新 运行 最 后 一 行 代 码 。 
你 应 该 会 看 到 不 一 样 的 结果 ， 这 取决 于 你 设置 的 是 保留 几 位 小 数 。 

如 前 文 所 述 ， 在 数据 处 理 过 程 中 你 会 遇 到 许多 数学 上 的 细节 问题 。 你 可 能 需要 完成 的 数学 
运算 也 有 许多 不 同 的 方法 ， 但 在 用 到 非 整数 时 ， 使 用 小 数 型 数据 可 以 使 计算 精度 更 高 。 


















































Python 中 的 数字 
Python 中 的 数字 类 型 有 不 同 的 精度 水 平 ， 这 是 Python 语言 的 缺点 之 一 。 随 着 对 数据 
处 理 的 深入 学 习 ， 我 们 将 在 本 书 中 学 到 更 多 Python 中 与 数字 和 数学 相关 的 库 。 要 是 
你 现在 就 想 知道 ， 并 且 打 算 做 一 些 不 那么 基础 的 数学 运算 ， 下 面 是 一 些 你 需要 芍 悉 的 
Python 库 。 


。 decimal (https://docs.python.org/2/library/decimal.html) ， 用 于 定点 运算 和 浮 点 运算 。 

。 math (https://docs.python.org/2/library/math.html) ， 可 以 使 用 C 语言 标准 所 定义 的 数学 函数 。 

。 numpy (http://docs.scipy.org/doc/numpy/reference/routines.math.html) ,Python 科学 计 
算 的 基础 包 。 

。 sympy (http://docs.sympy.org/latest/index.html) ， 用 于 符号 数学 的 Python 库 。 

。 mpmath (http://mpmath.org/) 用 于 任意 精度 实数 和 复数 浮 点 运算 的 Python 库 。 

















我 们 已 经 学 过 了 字符 串 型 、 整 型 和 学 点 型 /小 数 型 。 下 面 以 这 些 基本 数据 类 型 为 基础 ， 创 
建 更 复杂 的 数据 类 型 。 


2.2 ”数据 容器 


本 节 会 讲 到 数据 容器 ， 里 面 装 有 许多 数据 点 (data point)。 但 应 该 注意 的 是 ， 这 些 容器 本 
身 也 是 Python 的 数据 类 型 。Python 中 有 几 种 常见 的 容器 : 变量 、 列 表 和 字典 。 

















2.2.1 变量 

变量 为 我 们 提供 了 保存 数据 的 方法 ， 这 些 数 据 包括 字符 串 、 数 字 或 其 他 数据 容器 。 变 量 
一 串 字 符 组 成 ， 通 常 是 一 个 小 写 单词 (或 用 下 划 线 连接 的 多 个 单词 )， 用 来 说 明 变量 包含 
的 内 容 。 























我 们 试 着 创建 一 个 简单 的 变量 。 在 Python 解释 器 中 ， 试 试 下 面 的 代码 : 

filename = "budget.csv' 
输入 正确 的 话 ， 解 释 器 应 该 不 会 返回 任何 值 。 这 与 在 Python 解释 器 中 输入 字符 串 有 所 不 
同 。 如 果 在 Python 解释 器 中 只 输入 'budget.csv' ， 它 会 输出 'budget .csv'。 
当 你 创建 一 个 变量 时 ， 是 将 程序 本 来 应 该 输出 的 数据 赋值 给 这 个 变量 。 这 也 是 创建 新 变量 
时 没有 返回 值 的 原因 。 在 上 面 的 例子 中 ， 我 们 的 变量 叫 作 filename， 其 中 保存 着 我 们 输入 
的 字符 串 ('budget.csv' )， 作 为 它 的 值 。 





























面向 对 象 编程 
你 可 能 听 说 过 面向 对 象 编程 (object-oriented programming，OOP)。Python 是 一 门面 向 
对 象 的 编程 语言 。“ 面 向 对 象 编程 ”中 的 “对 象 ” 可 以 是 本 章 我 们 学 过 的 任意 一 种 数据 
类 型 ， 例 如 字符 事 、 变 量 、 数 字 或 浮 点 数 。 
在 正文 给 出 的 例子 中 ,我 们 的 对 象 是 一 个 字符 囊 ， 此 时 保存 在 filename 中 。 我 们 定义 
的 每 一 个 变量 都 是 一 个 Python 对 象 。 在 Python 中 ,我 们 用 对 象 来 保存 后 面 要 用 到 的 
数据 。 这 些 对 象 通常 具有 不 同 的 性 质 和 行为 ， 但 它们 都 是 对 象 。 
例如 ， 每 一 个 整数 对 象 都 可 以 用 + 号 (加 法 运算 符 ) 与 另 一 个 整数 相 加 。 继 续 学 习 
Python 的 过 程 中 ， 你 会 学 到 关于 这 些 对 象 及 其 基础 类 型 的 性 质 和 行为 的 更 多 内 容 ， 也 
会 因此 喜欢 上 面向 对 象 编程 的 | 














前 面 在 创建 一 串 字母 并 将 其 赋值 给 名 为 filename 的 变量 时 ， 我 们 遵循 了 变量 命名 的 几 条 通 
用 规则 。 不 用 担心 记 不 住 这 些 规则 ， 但 如 果 在 代码 中 定义 新 变量 时 出 现 错误 ， 一 定 要 想起 
这 些 规则 。 
。 可 以 包含 下 划 线 ， 但 不 能 包含 连 字符 。 
。 可 以 包含 数字 ， 但 变量 名 不 能 以 数字 开头 。 
。 为 了 方便 阅读 ， 单 词 用 小 写字 母 ， 单 词 之 间 用 下 划 线 隔 开 。 
试 一 试 下 面 的 代码 : 
lexample = 'This is going to break.，' 
发 生 了 什么 ?你 得 到 了 什么 类 型 的 错误 ?你 应 该 得 到 的 是 语法 错误 ， 因 为 你 违反 了 第 二 条 
规则 。 
只 要 不 违反 Python 变量 命名 的 规则 ， 变 量 几乎 可 以 任意 命名 。 例 如 : 
horriblevariablenamesarenotdescriptiveandtoolong = "budget.csv' 
可 以 看 出 ， 变 量 名 太 长 ， 并 且 没 有 对 变量 内 容 进行 说 明 。 另 外 ,缺少 下 划 线 ， 让 人 难以 读 
懂 。 什 么 样 的 变量 名 古 一 个 好 的 变量 名 ? 问 自己 一 个 问题 : 六 个 月 之 后 ， 如 果 我 已 经 把 代 
码 全 部 筷 记 了 ， 什 么 样 的 变量 名 仍 是 有 意义 的 ， 并 能 帮 有 我 理解 代码 的 内 容 ? 
我 们 来 看 一 个 更 合理 的 变量 cats。 如 前 一 个 例子 所 示 ， 变 量 的 值 不 一 定 要 是 文件 名 。 
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变量 可 以 有 许多 不 同 的 值 和 名 字 。 我 们 假装 在 数 猫 咪 的 数量 ， 所 以 要 把 一 个 整数 赋值 给 变 


量 cats ， 


Cats = 42 


如 果 Python 脚本 记录 了 我 们 有 多 少 只 猫咪 ， 我 们 不 需要 每 时 每 刻 都 知道 确切 的 数字 。 我 们 
只 需要 知道 这 个 值 被 保存 在 变量 cats 中 ， 所 以 ， 当 我 们 在 解释 器 中 调用 cats 时 ,或 者 在 
另 一 段 代 码 中 用 到 cats 时 ， 它 总 会 返回 当前 猫咪 的 数量 。 
调用 变量 ， 是 指 请 求 Python 返回 该 变量 的 值 。 我 们 来 调用 cats。 在 解释 器 中 输入 cats。 
你 应 该 会 得 到 42 作为 返回 值 。 如 果 输 入 filename， 你 应 该 会 得 到 字符 串 'budget.csv' 作 
为 返回 值 。 在 计算 机 上 试 一 下 : 

>>> cats 

42 

>>> filename 


"budget .csv' 
>>> 


如 果 输 入 不 存在 的 变量 名 (或 者 输 错 了 变量 名 ) ， 你 会 得 到 以 下 错误 : 


>>> dogs 

Traceback (most recent call Last) : 
File "<stdin>", line 1, in <module> 

NameError: name 'dogs' is not defined 


前 面 说 过 ， 学 会 如 何 阅读 错误 信息 是 很 重要 的 ， 这 可 以 让 你 明白 犯 了 什么 错误 ， 以 及 如 何 
改正 错误 。 在 这 个 例子 中 ， 错 误 信 息 指 出 ，dogs is not defined， 意思 是 我 们 没有 定义 过 
一 个 叫 作 dogs 的 变量 。 由 于 我 们 没有 定义 过 这 个 变量 ， 所 以 Python 不 知道 我 们 要 调用 的 
是 什么 。 

在 第 一 个 例子 中 ， 如 果 你 忘 了 在 'budgets.csv' 上 加 引号 ， 也 会 得 到 相同 的 错误 。 在 
Python 解释 器 中 试 一 下 : 


filename = budget.csv 
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返回 的 错误 信息 是 NameError: name 'budget' is not defined。 这 是 因为 Python 并 不 知 
道 budget.csv 应 该 是 一 个 字符 串 。 要 记 住 ， 字 符 串 总 是 用 引号 来 标记 。 没 有 引号 的 话 ， 
Python 会 试图 将 其 解释 成 另 一 个 变量 。 这 个 练习 的 要 点 就 是 ， 注 意 错 误 发 生 在 哪 一 行 ， 并 
问 问 自己 : 错误 可 能 出 在 哪里 ?在 dogs 的 例子 中 ， 错 误 信 息 指 出 ， 错 误 发 生 在 第 1 行 。 如 
果 有 很 多 行 代码 ， 错 误 信 息 可 能 会 指向 第 87 行 。 

前 面 给 出 的 所 有 例子 都 是 短 字符 串 或 整数 。 变 量 也 可 以 保存 长 字符 串 ， 甚 至 是 跨 很 多 行 的 
字符 串 。 在 例子 中 我 们 选择 用 短 字符 串 ， 是 因为 对 你 (或 我 们 ) 来 说 ， 输 入 长 字符 串 一 点 
都 不 好 玩 。 


试 一 下 保存 长 字符 串 的 变量 。 注 意 ， 字 符 串 里 含有 单 引 号 ， 我 们 必须 用 双 引 号 来 保存 : 
recipe = "A recipe isn't just a list of ingredients." 


现在 给 入 recipe， 你 会 得 到 保存 的 长 字符 串 : 
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>>>recipe 
"A recipe isn't just a list of ingredients." 


变量 的 数据 类 型 不 一 定 要 是 字符 串 或 整数 。 变 量 可 以 保存 各 种 不 同 的 Python 数据 类 型 ， 我 
们 会 在 后 续 章 节 进 一 步 学 习 这 方面 的 内 容 。 
2.2.2 ”列表 


列表 是 具有 某 种 共同 关系 的 一 组 值 。 在 Python 中 使 用 列表 ， 和 在 日 常 语言 中 使 用 列表 很 相 
似 。 在 Python 中 ， 将 一 列 元 素 放 到 方 括号 〈[]) 中 ， 元 素 之 间 用 逗号 隔 开 ， 即 可 创建 列表 。 


我 们 在 Python 中 创建 一 个 食品 的 列表 : 


['milk', 'lettuce', 'eggs'] 





上 面 这 个 列表 由 字符 串 组 成 ， 不 是 由 变量 组 成 。 这 一 点 是 可 以 看 出 来 的 ， 
为 单词 都 用 引号 包 庄 。 如 果 元 素 都 是 变量 的 话 ， 是 不 会 有 两 边 的 引号 的 。 





按 下 Return 键 ，Python 会 返回 以 下 内 容 : 

['milk', 'lettuce', 'eggs'] 
你 刚刚 创建 了 第 一 个 Python 列表 : 字符 串 列 表 。 你 可 以 创建 任意 数据 类 型 的 列表 ， 或 者 多 
种 数据 类 型 混合 的 列表 (例如 ， 同 时 包含 浮 点 数 和 字符 串 的 列表 )。 我 们 来 创建 一 个 同时 
包含 整数 和 浮 点 数 的 列表 : 

[0, 1.0, 5, 10.0] 
下 面 将 我 们 的 列表 保存 在 变量 中 ， 这 样 就 可 以 在 后 面 的 代码 中 调用 它 。 变 量 很 有 用 ， 因 为 
变量 可 以 让 我 们 不 必 反 复 输入 数据 。 如 果 列 表 很 长 ， 比 如 说 有 5000 个 元 素 那 么 长 ， 手 动 
输入 数据 很 容易 出 错 ， 而 且 效 率 不 高 。 正 如 前 文 所 述 ， 变 量 是 保存 值 的 方法 ， 将 其 保存 在 
合理 命名 的 容器 中 。 
在 Python 解释 器 中 尝试 以 下 代码 : 

shopping_list = ['milk', 'lettuce', 'eggs'] 
按 下 Return 键 ， 你 应 该 会 看 到 新 的 一 行 。 看 起 来 似乎 什么 也 没有 发 生 。 之 前 是 将 列表 原样 
返回 ， 还 记得 吗 ? 现在 Python 将 列表 保存 在 shopping_List 变量 中 。 如 果 在 Python 提示 符 
中 输入 shopping_List 来 调用 变量 ， 你 应 该 会 得 到 以 下 返回 值 : 


shopping_list 
['milk', 'lettuce', 'eggs'] 


列表 也 可 以 保存 变量 。 比 如 说 ， 我 们 有 一 个 变量 ， 里 面 保存 的 是 动物 收容 所 中 动物 的 数量 : 












































cats = 2 
dogs = 5 
horses = 1 
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现在 可 以 将 这 些 动物 的 数量 放 在 一 个 列表 中 : 
animal_counts = [cats, dogs, horses] 
在 Python 解释 器 中 输入 animal_counts，Python 会 返回 下 面 的 值 : 
[2, 5, 1] 
变量 为 我 们 保存 信息 。 当 我 们 输入 变量 名 时 ，Python 返回 的 是 变量 中 保存 的 值 。 
你 还 可 以 创建 包含 列表 的 列表 。 比 如 说 ， 创 建 动物 名 字 的 列表 : 
cat_names = ['Walter', 'Ra'] 
dog_names = ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 


horse_names = ['Mr. Ed'] 
animal_names = [cat_names, dog_names, horse_names] 


在 Python 解释 器 中 输入 animaL_names，Python 会 返回 下 面 的 值 : 
[['walter', 'Ra'], ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'], ['Mr. Ed']] 
你 不 必 输 入 所 有 的 名 字 来 创建 包含 列表 的 列表 。 原 始 变量 (cat_names，dog_names，horse_ 


names) 也 是 列表 ， 它 们 仍然 可 用 。 例 如 ， 输 入 cat_names， 你 会 得 到 ['Walter'，'Ra'] 作 
为 返回 值 。 


前 面 已 经 探索 了 列表 ， 下 面 我 们 继续 探索 一 个 稍微 复杂 一 点 的 数据 容器 ， 叫 作 字典 。 
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2.2.3 字典 
字典 比 变量 或 列表 更 加 复杂 。 字典 ”这 个 名 字 是 很 贴切 的 。 将 Python 的 字典 看 作 传统 意 
义 上 的 字典 一 一 用 来 查找 单词 释义 的 工具 。 在 Python 的 字典 中 ， 你 要 查找 的 单词 叫 作 键 
(key)， 这 些 单词 的 释义 叫 作 值 (value)。 在 Python 中 ， 键 对 应 一 个 值 。 
回头 看 动物 的 例子 。animal_numbers 保存 的 是 我 们 拥有 的 不 同 动物 数量 的 列表 ， 但 我 们 不 
清楚 哪个 数字 对 应 哪 一 种 动物 。 字 典 是 存储 这 种 信息 的 好 方法 。 
在 下 面 的 例子 中 ， 我 们 用 动物 种 类 作为 键 ， 每 种 动物 的 数量 作为 值 : 
animal_counts = {'cats': 2, 'dogs': 5, 'horses': 1} 
如 果 想 用 键 来 访问 一 个 值 ， 可 以 从 字典 中 访问 键 (类 似 在 普通 的 字典 中 查 单 词 )。 为 了 在 
Python 中 实现 这 样 的 查找 (比如 查找 我 们 拥有 的 狗 狗 的 数量 )， 可 以 输入 以 下 代码 : 
animal_counts['dogs'] 
你 应 该 看 到 的 返回 值 是 5， 因 为 我 们 在 字典 中 ('dogs': 5) 设置 'dogs' 键 对 应 的 值 是 5。 
如 你 所 见 ， 想 要 存储 匹配 的 键 值 对 时 ， 字 典 是 很 有 用 的 。 根 据 你 的 需求 不 同 ， 字典 可 以 是 
非常 强大 的 ， 所 以 我 们 进一步 研究 同时 使 用 列表 和 字典 。 
对 于 前 面 动物 名 字 的 列表 ， 很 难说 清楚 哪个 名 字 列 表 属 于 哪 一 种 动物 。 哪 个 列表 里 面 是 猫 
咪 的 名 字 ， 哪 个 列表 里 面 是 狗 狗 的 名 字 ， 哪 个 列表 里 面 是 马 的 名 字 ， 谁 也 搞 不 清楚 。 但 
是 ， 我 们 可 以 用 字典 把 动物 们 区 分 清楚 : 
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animal_names = { 
'cats': ['Walter', 'Ra'], 
'dogs': ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'], 
'horses': ['Mr. Ed'] 


} 
存储 同样 的 值 还 有 男 一 种 方法 ， 它 用 到 了 更 多 的 变量 : 
cat_names = ['Walter', 'Ra'] 0 


dog_names = ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 
horse_names = ['Mr. Ed'] 
animal_names = { 
'cats': cat_names， @ 
'dogs': dog_names， 
'horses': horse_names 


} 
@ 这 一 行 代码 将 变量 cat_names 定义 为 猫咪 名 字 的 列表 (字符 串 列 表 )。 
@ 这 一 行 代码 使 用 变量 cat_nanes， 传 递 猫咪 名 字 的 列表 作为 字典 中 键 "“cats' 对 应 的 值 。 
虽然 过 程 有 所 不 同 , 但 两 种 方法 得 到 的 是 相同 的 字典 。 随 着 对 Python 的 深入 学 习 , 你 将 能 
够 更 好 地 判断 ， 什 么 时 候 需 要 定义 更 多 的 变量 ， 什 么 时 候 不 这 么 做 反而 更 好 。 现 在 你 会 发 
现 ， 利 用 许多 定义 好 的 不 同 变量 (例如 cat_names 和 dog_names) 来 创建 新 的 变量 (例如 


animal_names)， 这 是 很 容易 的 。 








虽然 Python 有 间距 和 格式 的 规则 ， 但 你 的 字典 格式 不 一 定 非得 和 我 们 前 面 的 
一 样 。 但 是 ， 你 的 代码 应 该 尽 可 能 易于 阅读 。 保 证 代码 的 可 读 性 ， 你 自己 以 
及 其 他 合作 的 开发 者 都 会 因为 这 一 点 而 感谢 你 的 。 


2.3 各 种 数据 类 型 的 用 途 
每 种 基本 数据 关 弄 都 可 以 做 各 种 各 样 的 事情 。 下 面 列 出 了 我 们 目前 学 过 的 数据 类 型 ， 并 举 
例 说 明 这 些 数 据 类 型 所 能 做 的 各 种 事情 。 


。 字符 串 
- 大 小 写 转换 
一 删除 字符 串 末 尾 的 空格 
- 分 割 字 符 串 
。 整数 和 小 数 
- 加 减 运算 
一 简单 数学 运算 
。 列表 
- 在 列表 中 增加 或 删除 元 素 


















































注 1: 两 个 字典 并 不 完全 相同 ， 因 为 第 二 个 字典 中 使 用 了 可 以 被 修改 的 对 象 。 想 详细 了 解 二 者 的 区 别 ， 请 查 
阅 附录 EE。 
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一 删除 列表 的 最 后 一 个 元 素 
一 列表 重新 排列 
一 列表 排序 

。 字典 
- 增加 一 个 键 / 值 对 
- 将 指定 的 键 设置 为 新 的 值 
一 利用 键 查找 值 





在 上 面 这 个 列表 中 我 们 故意 没有 提 到 变量 。 变 量 能 做 的 事情 取决 于 它 包 含 的 
数据 。 比 如 说 ， 如 果 变 量 是 一 个 字符 串 ， 那 么 它 可 以 做 所 有 字符 串 能 做 的 事 
情 。 如 果 变 量 是 一 个 列表 ， 那 么 它 可 以 做 只 有 列表 才能 做 的 各 种 事情 。 





把 数据 类 型 看 作 名 词 ， 把 它们 能 做 的 事情 看 作 动 词 。 在 大 多 数 情况 下 ， 数 据 类 型 能 做 的 事 
情 被 称 为 方法 (method)。 想 要 访问 数据 类 型 的 方法 ,或 者 说 让 数据 类 型 做 一 些 事情 ， 你 
可 以 用 点 号 (.)。 比 如 说 ， 如 果 你 将 一 个 字符 串 赋 值 给 名 为 foo 的 变量 ， 你 可 以 输入 foo. 
strip() 来 调用 该 字符 串 的 strip 方法 。 我 们 来 看 一 下 其 中 一 些 方法 的 作用 。 


在 调用 字符 串 的 方法 时 ， 它 们 的 行为 是 Python 默认 库 的 一 部 分 (类似 于 手 
机 上 预 装 的 默认 应 用 )， 所 有 Python 版 本 共享 这 一 默认 库 。 在 每 一 台 运 行 
Python 的 计算 机 上 都 可 以 调用 这 些 方法 ， 因 此 每 一 个 Python 字符 串 都 可 以 
共享 相同 的 方法 (就 像 每 一 台 手 机 都 可 以 打 电话 ， 每 一 台 苹 果 和 手机 都 可 以 发 
送 iMessage 一 样 )。Python 标准 库 (也 叫 作 stdlib，https://docs.python.org/2/ 
library/) 中 包含 了 大 量 的 内 置 方法 和 基本 数据 类 型 ， 基 中 包括 你 正在 使 用 的 
Python 数据 类 型 。 
































2.3.1 字符 串 方法 : 字符 串 能 做 什么 
回头 看 最 开始 定义 的 变量 filename。 我 们 开始 时 用 filename = 'budget.csv' 来 定义 变量 。 
这 种 定义 方法 很 方便 。 但 有 些 时 候 ， 事 情 并 没有 那么 简单 。 来 看 几 个 例子 : 

filename = 'budget.csv . 
注意 ， 现 在 filiname 字符 串 里 有 许多 多 余 的 空格 ， 可 能 需要 将 其 删 掉 。 可 以 用 Python 字 
符 串 的 strip 方法 ， 这 是 一 个 内 置 国 数 ， 可 以 从 头 到 尾 删 除 字符 串 中 多 余 的 空格 : 


filename = 'budget.csv 
filename = filename.strip() 








如 果 你 没有 对 变量 重新 赋值 的 话 ( 令 filename 等 于 filename.strip() 的 输 
出 值 )， 你 对 filename 所 做 的 修改 不 会 被 保存 。 














在 Python 解释 器 中 输入 filename， 现 在 你 应 该 可 以 看 到 ， 空 格 已 经 被 删除 。 
比如 说 ， 文 件 名 需要 全 部 用 大 写字 母 。 可 以 用 Python 字符 串 内 置 的 upper 函数 将 所 有 的 字 
母 转 换 成 大 写 : 


filename = "budget.csv' 
filename.upper() 


从 输出 应 该 可 以 看 出 ， 现 在 文件 名 已 经 全 部 大 写 了 : 
'BUDGET .CSV' 

在 这 个 例子 中 ， 我 们 没有 将 大 写 的 字符 串 重 新 赋值 给 变量 filename。 在 解释 器 中 再 次 调用 
filename 时 会 发 生 什 么 ?输出 应 该 还 是 'budget.csv'。 如 果 你 不 希望 修改 你 的 变量 ， 只 想 
对 变量 进行 转换 后 使 用 一 次 ， 可 以 调用 类 似 upper 这 样 的 方法 ， 这 些 方 法 会 返回 修改 后 的 
字符 串 ， 但 不 会 改变 变量 本 身 。 

如 果 想 对 变量 重新 赋值 ， 用 同一 个 变量 名 保存 返回 值 ， 应 该 怎么 办 呢 ? 接 下 来 ， 将 变量 
filename 的 值 改 成 全 部 大 写 : 


filename = 'budget.csv' 0 
filename = filename.upper() ©@ 


@ 在 本 行 之 后 调用 filename， 输 出 是 'budget.csv'。 
@ 在 本 行 之 后 调用 filename， 输 出 是 'BUDGET .CSV'。 
可 以 将 代码 压缩 成 一 行 来 运行 : 
filename = 'budget.csv' .upper() 
代码 的 行 数 有 时 是 你 个 人 的 风格 或 偏好 。 你 可 以 随意 选择 你 认为 合理 的 方式 ， 但 要 保持 代 
码 清晰 、 易 读 、 明 了 。 
在 上 面 这 些 例 子 中 只 讲 了 两 个 字符 串 方 法 : strip 和 upper， 但 还 有 许多 其 他 的 内 置 字符 
方法 。 随 着 在 数据 处 理 过 程 中 遇 到 更 多 的 字符 串 ， 我 们 会 学 习 更 多 的 字符 串 方 法 。 


2.3.2 ”数值 方法 : 数字 能 做 什么 

整数 和 浮 点 数 /小数 都 是 数学 对 象 。 如 果 你 输入 49 + 2，Python 会 返回 42。 如 果 你 想 把 结 

果 保 存在 变量 中 ， 可 以 将 其 赋值 给 一 个 变量 ， 正 如 我 们 在 字符 串 的 例子 中 所 做 的 那样 : 
answer = 40 + 2 

现在 你 输入 answer， 得 到 的 返回 值 是 42。 整 数 能 做 的 大 部 分 事情 都 是 可 以 预知 的 ， 但 有 可 

能 你 需要 使 用 一 些 特殊 的 格式 ， 这 样 Python 解释 器 才能 理解 你 想 做 的 数学 运算 。 例 如 ， 如 

果 你 想 计 算 42 的 平方 ， 那 你 需要 输入 42**2。 

整数 、 浮 点 数 和 小 数 也 还 有 许多 其 他 的 方法 ， 我 们 会 在 学 习 数 据 处 理 的 过 程 中 遇 到 其 中 一 

些 方法 。 
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加 法 和 减法 
对 于 Python 的 其 他 数据 类 型 ， 你 也 可 以 做 加 法 ， 例 如 字符 事 和 列表 。 试 一 试 下 面 的 
代码 : 


'This is 


+ 'awesome.' 
和 
['Joker', 'Simon', 'Ellie'] + ['Lishka', 'Turtle'] 
试 试用 减法 ， 看 看 会 发 生 什么 ? 运行 下 面 的 代码 会 报错 ， 你 能 从 中 学 到 什么 ? 
['Joker', 'Simon', 'Ellie', 'Lishka', 'Turtle'] - ['Turtle'] 
你 应 该 会 得 到 报错 信息 : TypeError: unsupported operand type(s) for -: 'list' and 
'List' 。 这 告诉 我 们 ，Python 列表 支持 加 法 ， 却 不 支持 减法 。 这 是 因为 Python 开发 人 


员 对 每 种 数据 类 型 支持 的 方法 所 做 的 选择 。 如 果 你 想 了 解 如 何 对 列表 做 减法 ， 可 以 查看 
Python 官网 上 列表 的 remove 方法 (https://docs.python.org/2/tutorial/datastructures.html) 。 











2.3.3 列表 方法 : 列表 能 做 什么 
列表 有 几 个 必须 知道 的 方法 。 我 们 从 一 个 空 列 表 开 始 ， 用 一 个 方法 来 添加 元 素 。 
首先 ， 像 这 样 定义 一 个 空 列表 : 

dog_names = [] 


在 解释 器 中 输入 dog_names， 返 回 的 是 []， 这 是 Python 显示 空 列表 的 方式 。 在 本 章 前 面 
的 内 容 里 ， 这 个 变量 中 保存 了 好 几 个 名 字 ， 但 在 上 一 行 代 码 中 我 们 重新 定义 了 这 个 变量 ， 
现在 它 是 一 个 空 列 表 。 内 置 的 append 方法 可 以 向 列表 中 添加 元 素 。 现 在 利用 这 一 方法 将 
“Joker” 添 加 到 列表 中 : 


dog_names .append('Joker') 
现在 输入 dog_nanes， 返 回 的 列表 中 将 包含 一 个 元 素 : [ "Joker '] 。 
下 面 你 自己 来 操作 ， 利 用 append 方法 创建 这 样 的 列表 : 
['Joker', 'Simon', 'Ellie', 'Lishka', 'Turtle'] 
比如 说 ， 你 不 小 心 添 加 了 一 个 猫 继 的 名 字 ，'Walter'. 
dog_names .append( 'Walter') 
你 可 以 利用 Python 列表 内 置 的 remove 方法 删除 这 个 元 素 : 
dog_names.remove( 'Walter') 


列表 还 有 许多 其 他 的 内 置 方法 ， 但 append 和 remove 是 其 中 最 常用 的 两 个 。 















































2.3.4 字典 方法 : 字典 能 做 什么 

为 了 学 习 一 些 有 用 的 字典 方法 ， 我 们 来 从 头 创建 一 个 动物 数量 的 字典 。 

在 下 面 的 例子 中 ， 我 们 创建 了 一 个 空 的 字典 。 然 后 添加 了 一 个 键 ， 并 给 定 了 这 个 键 对 应 
的 值 : 


animal_counts = {} 
animal_counts['horses'] = 1 


向 字典 添加 元 素 (animal_counts['horses']) 与 向 列表 添加 元 素 略 有 不 同 。 这 是 因为 字典 
既 有 键 又 有 值 。 在 上 面 的 例子 中 ， 键 是 "horses'， 值 是 1。 
我 们 用 动物 数量 来 定义 字典 的 其 他 部 分 : 


animal_counts['cats'] = 
animal_counts['dogs'] = 
animal_counts['snakes'] 


现在 在 Python 解释 器 中 输入 animaL_counts， 你 应 该 会 得 到 以 下 字典 : {'horses': 1， 
'cats': 2，'dogs': 5， "snakes': 0}。(Python 字典 不 会 保存 元 素 的 顺序 ， 所 以 你 看 到 的 
输出 可 能 会 有 所 不 同 ， 但 应 该 包含 相同 的 键 值 对 )。 
这 里 讲 的 是 一 个 非常 小 的 例子 ， 但 是 编程 并 非 总 是 这 样 方便 。 试 想 由 世界 上 所 有 家 冀 的 数 
量 构 成 的 字典 。 作 为 程序 员 ， 我 们 可 能 不 知道 这 个 animal_counts 字典 中 包含 的 所 有 动物 
种 类 。 在 处 理 一 无 所 知 的 大 型 字典 时 ， 我 们 可 以 利用 字典 方法 来 了 解 字 内 的 更 多 内 容 。 下 
面 这 个 命令 返回 字典 包含 的 所 有 键 : 

animal_counts.keys() 
如 果 你 把 前 面 的 练习 都 做 了 ， 那 么 在 解释 器 中 输入 上 面 的 代码 会 返回 一 个 键 的 列表 ， 如 下 
所 示 : 

['horses', 'cats', 'dogs', 'snakes'] 
对 于 上 面 任何 一 个 键 ， 你 可 以 从 字典 中 检索 到 与 其 对 应 的 值 。 下 面 的 查询 将 返回 狗 狗 的 
数量 : 

animaL_counts['dogs '] 
这 行 代码 的 输出 是 5。 
如 果 你 愿意 ， 可 以 将 这 个 值 保存 在 一 个 新 变量 中 ， 这 样 你 就 无 需 再 次 查询 : 

dogs = animaL_counts['dogs '] 
现在 ， 你 直接 输入 变量 dogs，Python 将 返回 5。 


这 就 是 你 可 以 对 字典 做 的 一 些 基 本 操作 。 随 着 用 代码 去 解决 越 来 越 复杂 的 问题 ， 我 们 也 会 
更 深入 地 学 习 字 典 ， 正 如 字符 串 和 列表 一 样 。 
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2.4 有 用 的 工具 : type、dir 和 help 

Python 标准 库 中 有 几 个 内 置 工 具 ， 可 以 帮 你 确定 变量 的 数据 类 型 或 对 象 类 型 ， 并 给 出 这 些 
变量 能 做 的 事情 〈 即 它们 都 有 哪些 方法 ) 。 本 节 将 学 习 三 个 工具 ， 它 们 都 是 Python 标准 库 
的 一 部 分 。 











2.4.1 type 


type 可 以 帮 你 确定 你 的 对 象 属于 哪 种 数据 类 型 。 想 在 Python 代码 中 做 到 这 一 点 ， 将 
变量 放 到 type() 的 括号 里 ， 例 如 ， 如 果 变 量 名 是 dogs， 那 就 在 Python 提示 符 后 输入 
type(dogs)。 当 你 用 变量 保存 数据 ， 并 想 知道 变量 里 的 数据 是 什么 类 型 时 ， 这 一 方法 是 非 
常 有 用 的 。 回 忆 本 章 前 面 邮政 编码 的 例子 。 
对 于 值 20011， 这 里 有 两 种 不 同 的 用 法 。 在 第 一 个 例子 中 ， 它 是 保存 成 字符 串 的 邮编 。 在 
第 二 个 例子 中 ， 它 是 一 个 整数 : 

'26011' 

20011 


如 果 将 这 两 个 值 保存 在 变量 中 ， 将 更 难以 确定 变量 的 类 型 ， 我 们 可 能 不 知道 或 不 记得 用 的 
是 字符 串 还 是 整数 。 
如 果 将 值 传递 给 内 置 方法 type，Python 就 会 告诉 我 们 对 象 属于 那 种 数据 类 型 。 试 一 下 : 
type('20011') 
type(20011) 
第 一 行 返回 的 是 str， 第 二 行 返 回 的 是 int。 将 列表 传递 给 type 会 返回 什么 ? 变量 呢 ? 
在 你 试图 排查 错误 时 ， 或 者 运行 其 他 人 的 代码 时 ， 确 定 对 象 的 类 型 是 很 有 用 的 。 还 记得 我 
们 试图 从 一 个 列表 中 减 去 另 一 个 列表 吗 ( 见 2.3.2 节 ) ? 好 吧 ， 你 也 不 能 从 一 个 字符 串 中 
减 去 另 一 个 字符 串 。 所 以 ， 与 整数 20911 相 比 ， 字 符 串 '26911' 具有 许多 不 同 的 方法 以 及 
用 例 。 






























































2.4.2 dir 
dir 会 返回 一 个 内 置 方法 与 属性 的 列表 ， 帮 你 列 出 特定 数据 类 型 能 做 的 所 有 事情 。 我 们 用 
字符 串 'cat ,dog,horse' 来 试 一 下 : 

dir('cat,dog,horse') 
暂时 忽略 返回 的 列表 中 开头 的 那些 项 〈 以 双 下 划 线 开头 的 那些 字符 串 )。 这 些 是 Python 使 
用 的 内 部 方法 或 私有 方法 。 
最 有 用 的 方法 包含 在 返回 列表 的 第 二 部 分 。 许 多 方法 的 用 途 显 而 易 见 ， 或 者 说 是 自 说 明 的 
(self-documenting) 。 你 应 该 会 看 到 本 章 前 面 使 用 的 一 些 字符 串 方 法 : 

















es 


__sizeof__'， 
RE 5 
__subclasshook __'， 
'_formatter_field name_split', 
'_formatter_parser', 
'capitalize', 
"Center ' ， 

"Count ' ， 

"decode ' ， 

"encode ' ， 
"endswith ' ， 
"expandtabs ' ， 
"find ' ， 

"format ' ， 

'index', 

'isalnum', 
'isalpha', 
"Tsdigtt 
'islower', 
'isspace', 
'istitle', 
'isupper', 

'join', 

'"Ljust ' ， 

"Lower ' ， 

'lstrip', 
'partition', 
'replace', 

'rfind', 

"rindex ' ， 

"rjust ' ， 
'rpartition', 
'rsplit', 

Tstrip’, 

'split', 
'splitlines', 
'startswith', 
'strip', 

'swapcase', 

'title', 
'translate', 
'upper', 

"zf11L"] 


看 一 下 字符 串 'cat,dog,horse' ， 它 看 起 来 像 是 保存 在 字符 串 里 的 列表 。 实 际 上 它 是 单一 
值 ， 但 利用 Python 字符 串 内 置 的 split 方法 ， 我 们 可 以 以 逗号 为 分 隔 符 ， 将 字符 串 切 分 成 
更 小 的 字符 串 ， 像 这 样 : 


"Cat,dog,horse' .split(',') 


Python 将 返回 一 个 列表 : 


['cat', 'dog', 'horse'] 
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下 面 对 这 个 列表 调用 dir 函数 : 


dir(['cat', 'dog', 'horse']) 
和 字符 串 相 比 ， 列 表 可 选 的 方法 没有 那么 多 ， 但 我 们 来 尝试 其 中 几 个 。 首 先 ， 将 列表 转化 
为 变量 。 你 现在 应 该 知道 如 何 将 列表 赋值 给 变量 ， 这 是 一 个 例子 : 

animals = ['cat', 'dog', 'horse'] 
前 面 用 dir 作用 在 列表 上 给 出 了 许多 新 方法 ， 现 在 在 变量 animals 上 试用 其 中 一 些 方法 : 


animals.reverse() 
animals.sort() 


运行 每 一 行 代码 后 ， 打 印 输 出 animals 的 值 ， 这 样 你 就 能 看 出 这 些 方法 是 如 何 改 变 列表 的 。 
你 预期 的 输出 是 什么 样 的 ? 它 与 你 看 到 的 相同 吗 ? 尝试 将 dir 方法 作用 在 整数 和 浮 点 数 
上 。 (提示 : dir 只 能 传人 一 个 对 象 ， 所 以 试 着 输入 dir(1) 或 dir(3.0))。 其 中 有 没有 你 没 
有 想到 的 方法 ? 

如 你 所 见 ，dir 可 以 让 你 深入 了 解 每 一 种 Python 数据 类 型 的 内 置 方法 。 在 利用 Python 进行 
数据 处 理 时 ， 这 些 方 法 是 很 有 价值 的 。 建 议 你 花 时 间 对 感 兴趣 的 上 表 列 出 的 方法 都 尝试 一 
下 ， 并 用 不 同 的 数据 类 型 测试 更 多 的 方法 。 
































2.4.3 help 


本 章 要 学 习 的 第 三 个 有 用 的 Python 内 置 方 法 是 help 方法 。 这 一 方法 会 返回 对 象 、 方 法 或 
模块 的 文档 一 一 虽然 经 常 以 技术 性 很 强 (有 了 时 很 难 懂 ) 的 文字 书写 。 来 看 一 下 split 方法 
的 帮助 文档 ， 这 是 我 们 在 前 一 节 用 过 的 方法 。 如 果 你 不 知道 需要 将 字符 串 的 分 隔 符 放 在 
括号 内 ， 怎 么 能 知道 如 何 使 用 Python 字符 串 的 split 方法 呢 ? 假设 我 们 不 知道 如 何 使 用 
split， 不 传人 ',' 来 调用 这 一 方法 : 

animals = "cat,dog,horse' 

animals.split() 


代码 的 返回 值 如 下 : 


['cat,dog,horse'] 


看 起 来 不 错 ， 对 吧 ? 但 经 不 起 仔细 观察 。 正 如 我 们 所 见 ，Python 将 字符 串 转 换 成 一 个 列 
表 ， 但 并 没有 利用 逗号 对 多 个 单词 进行 分 割 。 这 是 因为 内 置 的 split 方法 默认 按 空格 分 害 
字符 串 ， 不 是 按 辟 号 分 割 。 我 们 需要 在 方法 中 传 入 一 个 逗号 字符 串 (',')， 来 告诉 Python 
按 喜 号 对 字符 串 进行 分 割 |。 

为 了 帮助 理解 这 个 方法 是 如 何 工 作 的 ， 我 们 将 其 传递 给 hetp。 前 面 把 变量 animals 变 成 了 
列表 ， 所 以 首先 我 们 必须 重新 定义 这 个 变量 。 我 们 把 它 变 回 字符 串 ， 然 后 查看 split 的 工 
作 原 理 : 


animals = "cat,dog,horse' 
help(aninmals.split) © 
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@ 本 行 代 码 将 animals.split (没有 ()) 传递 给 help 方法 。 你 可 以 向 hetp 方法 中 传 入 任 
何 对 象 、 方 法 或 模块 ， 但 如 前 所 见 ， 在 传 入 方法 时 不 应 该 把 尾部 的 括号 也 包括 进去 。 
Python 的 返回 值 如 下 : 


sptit(..ss) 
S.split([sep [,maxsplit]]) -> list of strings 





Return a list of the words in the string S, using sep as the 
delimiter string. If maxsplit is given, at most maxsplit 
splits are done. If sep is not specified or is None, any 
whitespace string is a separator and empty strings are removed 
from the result. 


帮助 文档 的 第 一 行 说 的 是 : S.split([sep [,maxsplit]]) 一 list of strings。 翻 译 成 汉 
语 ， 这 告诉 我 们 ， 对 于 字符 串 〈S$) ， 我 们 有 一 个 方法 (spLit)、 第 一 个 可 选 参 数 (也 就 是 
可 以 传 入 的 对 象 ) sep 以 及 第 二 个 可 选 参数 mnaxspLit。 参 数 名 两 边 的 方 括号 〈([]) 表明 它 
们 是 可 选 的 ， 不 是 必需 的 。 这 个 方法 返回 (->) 一 个 字符 串 列 表 。 

下 一 行 说 的 是 : "Return a list of the words in the string S, using sep as the 
delimiter string." sep 是 被 传人 split 方法 的 参数 ， 作 用 是 分 陪 符 (seperator)。 分 陪 符 
(delimiter) 是 用 来 分 割 字 段 的 单个 字符 或 一 串 字 符 。 例 如 ， 在 一 个 逗号 分 隔 文 件 中 ， 喜 号 
就 是 分 隔 符 。 喜 号 还 是 我 们 所 创建 字符 串 的 分 隔 符 ， 因 为 它 把 我 们 希望 出 现在 列表 中 的 单 
词 分 隔 开 。 





阅读 完 帮助 文档 后 〈 利 用 方向 键 上 下 翻 页 ) ， 你 可 以 输入 q 退出 help。 


help 文档 还 告诉 我 们 ， 如 果 没 有 指定 其 他 分 隔 符 ， 默 认 的 分 隔 符 是 空白 。 这 告诉 我 们 ， 如 
果 我 们 有 一 个 字符 串 'cat dog horse'，split 方法 不 需要 我 们 在 () 内 传人 分 隔 符 。 如 你 
所 见 ， 内 置 的 help 国 数 可 以 告诉 你 许多 关于 如 何 使 用 某 个 方法 的 内 容 ， 还 可 以 告诉 你 这 个 
方法 是 否 适合 你 正在 解决 的 问题 。 


2.5 综合 运 

我 们 利用 刚 学 到 的 新 技术 来 做 一 个 测验 。 试 着 完成 以 下 内 容 。 

(1) 创建 一 个 字符 串 、 一 个 列表 和 一 个 字典 。 

(2) 利用 dir 方法 查找 每 种 数据 类 型 可 用 的 方法 。 

(3) 试用 一 些 你 发 现 的 内 置 方法 ， 直 到 某 个 方法 抛 出 了 错误 。 

(4) 利 用 help 查看 该 方法 的 文档 。 试 着 理解 这 个 方法 是 做 什么 的 ， 并 试 着 搞 清 楚 ， 为 了 让 
这 个 方法 正常 运行 ， 你 可 能 还 需要 做 些 什么 。 

恭喜 ! 你 刚刚 学 会 了 如 何 编程 。 编 程 不 是 死记 硬 背 ， 相 反 ， 编 程 是 在 出 错时 排查 并 解决 

错误 。 
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2.6 代码 的 含义 
在 本 章 开 头 我 们 承诺 过 ， 在 本 章 结 束 时 你 会 理解 这 三 行 代码 : 


import sys 
import pprint 
pprint.pprint(sys.path) 


根据 目前 所 学 的 内 容 ， 我 们 把 这 三 行 代码 分 开 来 看 。 在 2.1.2 节 中 ， 我 们 导入 了 decimal 
库 。 看 起 来 我 们 正 从 Python 标准 库 中 导入 两 个 模块 一 一 sys 和 pprint。 
看 一 下 这 些 模块 的 帮助 文档 (一 定 要 确定 你 已 经 导入 了 这 些 模块 ， 否则 help 会 抛 出 错 
误 ! )。 由 于 pprint 更 容易 读 懂 ， 我 们 先 来 看 它 的 帮助 文档 : 


>>>import pprint 
>>>heLp(pprint.pprint) 














Help on function pprint in module pprint: 


pprint(object, stream=None, indent=1, width=80, depth=None) 
Pretty-print a Python object to a stream [default is sys.stdout]. 


很 好 。 根 据 pprint.pprint() 的 文档 ， 这 个 方法 将 传 入 的 内 容 以 易 读 的 形式 显示 出 来 。 


在 上 一 章 中 我 们 学 过 ，sys.path 给 出 Python 寻找 模块 的 位 置 。sys.path 的 数据 类 型 是 什 
么 ? 








import sys 
typel(sys.path) 


是 列表 。 我 们 知道 列表 怎么 用 ! 现在 我 们 还 知道 ， 将 一 个 列表 传 入 pprint.pprint， 列 表 的 
输出 格式 会 非常 美观 。 我 们 把 它 用 在 包含 列表 的 列表 上 ， 里 面 保存 的 是 动物 名 字 。 首 先 ， 
再 多 加 一 些 名 字 ， 使 列表 变 得 很 乱 : 
animal_names = [ 

['Walter', 'Ra', 'Fluffy', 'Killer'], 

['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'], 

['Mr. Ed', 'Peter', 'Rocket','Star'] 

] 


四 将 pprint 作用 于 变量 animaL_names: 





























下 


pprint.pprint(animal_names) 
得 到 的 返回 值 如 下 : 
[['Walter', 'Ra', 'Fluffy', 'Killer'], 


['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'], 
['Mr. Ed', 'Peter', 'Rocket', 'Star']] 


总 结 一 下 ， 这 是 最 开始 这 三 行 代 码 每 一 行 的 作用 : 


import sys 0 
import pprint © 








32 | 第 2 章 


pprint.pprint(sys.path) © 


导入 Python 的 sys 模块 。 
@ 导入 Python 的 pprint 模块 。 
@ 将 列表 sys.path 传递 给 pprint.pprint， 将 列表 清晰 易 读 地 显示 出 来 。 


如 有 果 将 字典 传人 pprint ,pprint 会 怎么 样 ? 你 应 该 会 看 到 格式 优美 的 字典 和 输出。 


2.7 NE 


数据 类 型 和 容器 是 Python 理解 并 存储 数据 的 方式 。 数 据 类 型 有 许多 种 ， 本 章 只 学 习 了 其 中 
重要 的 几 种 ， 如 表 2-1 所 示 。 


表 2-1: 数据 类 型 

















名 称 举例 

字符 串 'Joker' 

整数 2 

序 点 数 2.0 

变量 animal_names 

列表 ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 
字典 {'cats': 2, 'dogs': 5, 'horses': 1, 'snakes': 0} 





如 你 所 知 ， 有 些 数据 类 型 可 以 包含 在 其 他 数据 类 型 之 中 。 列 表 可 以 是 许多 字符 串 或 整数 ， 
或 二 者 都 有 。 变 量 可 以 是 列表 、 字 典 、 字 符 串 或 小 数 。 看 一 下 变量 animaL_names， 列 表 也 
可 以 是 包含 列表 的 列表 。 随 着 我 们 学 习 更 多 的 Python 知识 ， 也 会 更 深入 地 学 习 这 些 数据 类 
型 、 它 们 的 工作 原理 ， 以 及 如 何 利用 它们 来 满足 我 们 数据 处 理 的 需求 。 

本 章 我 们 还 学 习 了 Python 的 内 置 方法 ， 以 及 能 用 对 象 所 做 的 事情 。 另 外 ， 我 们 学 习 了 几 个 
简单 的 Python 方法 和 工具 。 利 用 这 些 方法 和 工具 ， 我 们 可 以 判断 对 象 的 数据 类 型 及 其 用 
途 。 表 2-2 对 这 些 工 具 做 了 总 结 。 


表 2-2: 辅助 工具 


















































举例 用 途 

type('Joker') 返回 'Joker' 的 对 象 类 型 

dir('Joker') 返回 一 个 列表 ， 给 出 对 象 'Joker' 可 以 做 的 所 有 事情 
(方法 和 属性 ) 

help('Joker' .strip) 返回 给 定 方法 (在 本 例 中 是 strip) 的 说 明文 档 ， 以 便 我 
们 更 好 地 了 解 如 何 使 用 它 











下 一 章 我 们 将 学 习 如 何 打开 各 种 文件 类 型 ， 以 及 如 何 将 数据 存储 成 本 章 学 过 的 Python 数据 
类 型 。 通 过 将 文件 中 的 数据 转换 成 Python 对 象 ， 我 们 可 以 充分 发 挥 Python 的 威力 ， 数 据 
处 理 将 很 快 变 成 一 件 容易 的 事情 。 
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第 3 章 


供 机 器 读 取 的 数据 





数据 可 以 存储 成 许多 不 同 的 格式 和 文件 类 型 。 某 些 格 式 存储 的 数据 很 容易 被 机 器 处 理 ， 而 
另 一 些 格式 存储 的 数据 则 容易 被 人 工读 取 。 微 软 的 Word 文档 属于 后 者 ， 而 CSV、JSON 
和 XML 文件 则 属于 前 者 。 本 章 我 们 将 学 习 如 何 读 取 那 些 容易 被 机 器 处 理 的 文件 ， 在 第 4 
章 和 第 5 章 我 们 将 讨论 那些 供 人 工读 取 的 文件 。 


以 易于 机 器 理解 的 方式 来 存储 数据 的 文件 格式 ， 通 常 被 称 作 机 器 可 读 的 
(machine readable)。 常 见 的 机 器 可 读 格式 包括 : 








。 吉 号 分 隔 值 (Comma-Separated Values, CSV) 
。 JavaScript 对 象 符号 (JavaScript Object Notation，JSON) 
。 可 扩展 标记 语言 (eXtensible Markup Language, XML) 


在 口语 和 书面 语 中 ， 提 到 这 些 数据 格式 时 通常 使 用 它们 的 短 名 字 (如 CSV)。 
我 们 将 使 用 这 些 缩写 。 
在 寻找 数据 、 向 组 织 或 机 构 发 出 数据 请 求 时 ， 你 能 找到 最 好 的 资产 就 是 本 章 讲 到 的 这 些 格 


式 。 与 易于 人 工读 取 的 格式 相 比 ， 这 些 格式 更 容易 被 Python 脚本 处 理 ， 在 数据 网 站 上 通常 
也 很 容易 找到 。 














创建 代码 主 文件 夹 
为 了 能 够 顺利 完成 本 章 的 例子 和 代码 ， 你 需要 将 文件 保存 到 本 地 计算 机 。 你 应 该 创建 
一 个 文件 夹 (如 果 之 前 还 没有 创建 的 话 )， 用 来 保存 Python 代码 和 数据 文件 。 文 件 夹 
的 名 字 要 直观 ， 比 如 叫 data_wrangling (数据 处 理 ) 。 然 后 在 这 个 文件 夹 中 创建 一 个 子 
文件 夹 ， 用 来 保存 与 本 书 相 关 的 代码 [比如 叫 code (代码 )]。 这 有 助 于 保持 你 的 文件 
夹 结构 清晰 ， 命 名 直观 。 
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如 果 你 按照 上 面 的 提示 操作 ， 应 该 创建 好 了 一 个 像 这 样 的 文件 夹 : ~/Projects/data_ 
wrangling/code, 

在 基于 Unix 的 系统 中 (Linux 和 Mac)，~ 符号 代表 主 目 录 ， 用 命令 行 访问 比较 方便 。 
在 Windows 系统 中 ， 主 目录 位 于 Users 文件 夹 下 ， 所 以 你 的 文件 夹 位 置 是 在 Ci\Users\ 
<your_name>\Projects\data_wrangling。 

在 本 书 的 数据 仓库 中 (https://github.com/jackiekazil/data-wrangling) 可 以 下 载 代码 示 
例 ， 并 将 其 移动 到 你 的 项 目 文件 夹 中 。 在 阅读 本 章 的 过 程 中 ,我 们 假定 ， 从 上 述 仓库 
下 载 的 数据 与 你 编写 的 Python 代码 位 于 同一 文件 夹 下 。 这 样 我 们 就 不 必 担 心 文件 定位 
问题 ， 可 以 专心 研究 用 Python 导入 数据 。 











3.1 CSV 数 据 


我 们 要 学 习 的 第 一 个 机 器 可 读 的 文件 格式 是 CSV。CSYV 文件 (简称 为 CSV) 是 指 将 数据 
列 用 喜 号 分 隔 的 文件 。 文 件 的 扩展 名 是 .csv。 
另 一 种 数据 类 型 ， 叫 作 制 表 符 分 隔 值 (tab-separated values，TSV) 数据 ， 有 时 也 与 CSV 
归 为 一 类 。TSYV 与 CSV 唯一 的 不 同 之 处 在 于 ， 数 据 列 之 间 的 分 隔 符 是 制 表 符 (tab)， 而 不 
是 人 逗 号 。 文 件 的 扩展 名 通常 是 .tsv， 但 有 时 也 用 .csv 作为 扩展 名 。 从 本 质 上 来 看 ，.tsv 文 
件 与 .csv 文件 在 Python 中 的 作用 是 相同 的 。 


如 果 文 件 的 扩展 名 是 .tsv， 那 么 里 面包 含 的 很 可 能 是 TSV 数据 。 如 果 文 件 的 
扩展 名 是 .csv， 那 么 里 面包 含 的 可 能 是 CSV 数据 ， 但 也 可 能 是 TSV 数据 。 
一 定 要 打开 文件 查看 一 下 ， 这 样 你 可 以 在 导入 数据 之 前 就 明确 所 处 理 的 数据 
类 型 。 






































对 于 本 章 的 CSV 实例 ， 我 们 采用 的 是 来 自己 界 卫 生 组 织 (WHO) 的 数据 。WHO 拥有 
许多 大 型 数据 集 (http://apps.who.int/gho/data/node.main)， 并 且 提 供 多 种 格式 的 数据 。 本 
例 选择 的 数据 集 包 含 全 球 各 国 的 预期 寿命 。 访 问 网 页 (http://apps.who.int/gho/data/node. 
main.3?lang=en) 查看 预期 寿命 数据 ， 你 会 发 现 这 个 数据 集 有 几 个 不 同 的 版 本 。 本 例 中 使 用 
的 是 CSV ( 纯 文 本 ， 下 载 地址 : http://apps.who.int/gho/athena/data/data-text.csv?target=GHO/ 
WHOSIS_000002,WHOSIS_000001,WHOSIS_000015&profile=text&filter=COUNTRY:*;RE 
GION:AFR:REGION:AMR;REGION:SEAR:;REGION:EUR;REGION:EMR;REGION:WPR:; 
SEX:*)。 


用 文本 编辑 器 打开 这 个 CSV 文件 ， 你 会 看 到 类 似 表 3-1 的 许多 行 数据 。 








注 1: 为 了 完成 本 章 练习 ， 你 需要 一 个 好 用 的 文本 编辑 器 。 如 果 还 没有 安装 的 话 ， 你 可 以 按 1.2.5 节 的 说 明 
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表 3-1: 两 个 样本 数据 记录 ” 























CSV 标 题 样本 记录 1 样本 记录 2 
指标 60 岁 时 预期 寿命 (年) 出生 时 预期 寿命 (年 ) 
发 布 状 态 已 发 布 已 发 布 
年 份 1990 1990 
WHO 地 区 欧洲 美洲 

世界 银行 收入 分 组 高 收入 中 低 收 入 
国家 捷克 共和 国 伯 利 兹 
性 别 女性 男女 合计 
示 值 19 71 

数值 大 小 19.00000 71.00000 
最 低 值 无 无 

最 高 值 无 无 

备注 无 大 





a 加 粗 项 包含 在 下 文 的 样本 数据 中 。 


为 了 让 数据 更 容易 阅读 ， 下 面 给 出 一 个 数据 样本 ， 其 中 只 包含 经 过 挑选 的 特定 字段 ( 表 
3-1 中 的 加 粗 项 ) 。 在 文本 编辑 器 中 打开 CSV 文件 ， 你 看 到 的 数据 应 该 与 其 类 似 : 


"Year","Country","Sex","Display Value","Numeric" 
"1990","Andorra","Both sexes","77","77.00000" 
"2000","Andorra","Both sexes","80","80.00000" 
"2012","Andorra","Female","28","28.00000" 
"2000","Andorra","Both sexes","23","23.00000" 
"2012","United Arab Emirates","Female","78","78.00000" 
"2000" , "Antigua and Barbuda","Male","72","72.00000" 
"1990" , "Antigua and Barbuda","Male","17","17.00000" 
"2012" , "Antigua and Barbuda","Both sexes","22","22.00000" 
"2012","Australia","Male","81","81.00000" 


页 览 CSV 文件 的 另 一 种 方法 是 用 电子 表格 程序 打开 ， 比 如 Excel 或 Google Spreadsheets。 
这 些 程序 将 每 一 个 数据 条 目 显 示 为 单独 的 一 行 。 


3.1.1 如 何 导入 CSV 数 据 


前 面 我 们 学 习 了 一 识 ， 下 面 用 Python 打开 这 个 文件 ， 并 将 数据 转换 成 
Python 可 以 理解 的 格式 。 这 只 要 几 行 代码 : 


import csv 















































csvfile = open('data-text.csv', 'rb') 
reader = csv.reader(csvfile) 


for row in reader: 
print row 


我 们 来 一 行 一 行 地 阅读 上 面 的 代码 。 在 上 一 章 里 ， 我 们 所 有 的 代码 都 是 在 Python 解释 器 中 





输入 的 ， 但 随 着 代码 变 得 越 来 越 长 、 越 来 越 复 杂 ， 在 文件 中 编写 代码 并 运行 要 方便 一 些 。 
读 完 这 段 代 码 ， 我 们 将 把 它 保存 在 一 个 .py 文件 中 (.py 文件 是 一 个 Python 文件 ) ， 然 后 在 
命令 行 中 运行 这 个 文件 。 

脚本 的 第 一 行 代码 导入 了 一 个 叫 作 csv 的 库 : 

import csv 

Python 库 是 一 个 代码 包 ， 提 供 了 你 可 以 在 Python 程序 中 使 用 的 功能 。 这 里 导入 的 csv 库 
是 Python 标准 库 (或 stdlib) 的 一 部 分 ， 随 Python 一 起 安装 。 将 库 导 入 到 文件 中 后 ， 我 们 
就 可 以 使 用 这 个 库 。 如 果 没 有 这 个 库 的 话 ， 脚 本 将 会 变 得 很 长 一 一 csv 库 提供 了 辅助 函数 ， 
这 样 一 来 ， 为 了 完成 更 复杂 的 任务 ， 我 们 就 不 必 写 这 么 多 的 代码 。 
第 二 行 代码 将 data-text.csv 文件 传 入 open 函数 ， 这 个 文件 应 该 和 脚本 位 于 同一 文件 夹 下 : 


csvfile = open('data-text.csv', 'rb') 























函数 (function) 是 一 段 代码 ， 在 被 调用 时 执行 相应 的 任务 。 它 和 我 们 在 第 2 

章 学 过 的 Python 数据 类 型 的 方法 十 分 相似 。 函 数 有 时 会 接收 一 个 (或 多 个 ) 

输入 。 这 些 输 入 叫 作 参数 (argument) 。 函 数 的 功能 是 基于 参数 的 。 函 数 有 时 
会 返回 一 个 输出 ， 可 以 被 保存 或 使 用 。 








open 是 Python 的 内 置 国 数 (这 里 列 出 了 Python 所 有 的 内 置 函数 : https://docs.python.org/2/ 
library/functions.html) ， 也 就 是 说 ， 打 开 文 件 的 行为 是 如 此 常见 ， 所 以 Python 核心 贡献 者 
认为 应 把 这 个 行为 添加 到 Python 的 默认 安装 里 。 在 使 用 open 函数 时 ， 我 们 传 入 一 个 文件 
名 作为 第 一 个 参数 (这 里 用 的 是 'data-text.csv')， 然 后 选择 指定 文件 打开 的 模式 (我 
们 用 的 是 'rb')。 如 果 查 看 open 函数 的 文档 (https://docs.python.org/2/library/functions. 
html#open) ， 你 会 发 现 ，'rb' 参数 的 意思 是 我 们 以 只 读 方 式 和 二 进 制 方式 打开 文件 。 以 二 
进 制 方式 打开 文件 ， 可 以 让 代码 在 Windows 上 和 基于 Unix 的 操作 系统 上 都 能 运行 。 另 一 
种 常见 的 模式 是 写 入 ('w' 或 'wb' ， 后 者 表示 以 二 进 制 方式 写 入 )。 





























如 果 你 想 读 取 文件 ， 以 只 读 方 式 打开 文件 。 如 果 你 想 写 入 文件 ， 以 写 入 方式 
打开 文件 。 











我 们 将 这 个 函数 的 输出 保存 在 变量 csvfile 中 。 现 在 csvfile 保存 一 个 打开 的 文件 作为 它 的 值 。 
在 下 一 行 代码 中 ， 我 们 将 csvfile 传递 给 csv 模块 的 reader 函数 。 这 个 函数 的 作用 是 让 
csv 模块 将 打开 的 文件 当 作 CSV 来 读 取 : 


reader = csv.reader(csvfile) 


国 数 csv.reader(csvfile) 的 输出 保存 在 变量 reader 中 。 现 在 reader 变量 保存 的 是 已 打开 
文件 的 Python CSV reader。 有 了 这 个 CSV reader， 我 们 用 简单 的 Python 命令 就 可 以 轻松 查 
看 文件 中 的 数据 。 最 后 一 段 代码 中 ， 我 们 使 用 了 所 谓 的 for 循环 。 


for 循环 是 一 种 遍历 Python 对 象 的 方法 ， 通 常 与 列表 一 起 使 用 。for 循环 告诉 Python 代 
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码 :“ 对 于 这 个 列表 中 的 每 一 个 元 素 ， 做 点 什么 。” 在 一 个 for 循环 中 ，for 后 面 的 第 一 个 
单词 是 用 来 保存 列表 (或 其 他 可 迭代 对 象 ) 中 每 一 个 对 象 的 变量 。for 循环 下 面 的 代码 利 
用 这 个 变量 对 该 元 素 执行 更 多 的 操作 或 计算 。 因 此 ， 最 好 用 有 意义 的 单词 做 变量 名 ， 这 样 
你 和 其 他 人 都 能 轻松 阅读 并 理解 代码 。 

还 记得 第 2 章 里 出 现 过 的 “无 效 的 标记 ”(invalid token) 吗 ? for 是 Python 
里 另 一 个 特殊 的 标记 (token)， 只 能 用 来 创建 for 循环 。 标 记 可 以 将 我 们 在 
解释 器 或 脚本 中 输入 的 内 容 翻译 成 计算 机 能 够 执行 的 命令 。 




































































试 着 在 Python 解释 器 中 运行 下 面 的 代码 : 


dogs = ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 
for dog in dogs: 
print dog 


利用 这 个 for 循环 ， 我 们 将 每 一 只 狗 狗 的 名 字 都 保存 在 for 循环 的 dog 变量 中 。 对 于 for 


循环 的 每 一 次 迭代 ， 我 们 打印 出 狗 狗 的 名 字 (保存 在 变量 dog 中 )。 当 程序 遍历 完 每 一 只 
狗 狗 的 名 字 (或 列表 中 的 每 一 个 元 素 ) 后 ， 代 码 停 止 运行 。 








在 IPython 中 退出 缩 进 代码 块 


在 IPython 终端 里 编写 for 循环 或 其 他 缩 进 代 码 块 时 ， 一 定 要 检查 一 下 ， 确 保 提示 
符 从 缩 进 代码 块 的 样式 .… 变 成 了 一 个 新 的 In 提示 符 。 最 简单 的 方法 就 是 ， 在 完成 
最 后 一 行 缩 进 代 码 后 裔 下 Return 键 。 你 应 该 看 到 一 个 新 的 In 提示 符 ， 然 后 再 输入 循环 
之 外 的 代码 

In [1]: dogs = ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 

In [2]: for dog in dogs: 
print dog ©@ 
5 @ 
Joker 
Simon 
Ellie 


Lishka 
Fido 


In [3]: (3) 


@ IPython 的 自动 缩 进 提示 符 〈.…: 后 面 跟着 四 个 空格 ) 。 
如 在 空 行 按 下 Return 键 ， 退 出 缩 进 代码 块 并 运行 代码 。 
全 IPython 的 代码 运行 结束 后 ， 出 现 了 新 的 提示 符 。 











在 我 们 用 来 读 取 CSYV 的 代码 中 ，reader 对 象 是 一 个 保存 数据 行 的 Python 容器 。 在 reader 
的 for 循环 中 ， 我 们 将 每 一 行 数 据 保存 在 变量 row 中 。 下 一 行 代码 的 意思 是 ， 我 们 让 
Python 打印 出 每 一 行 数据 : 


for row in reader: 
print row 
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现在 我 们 已 经 能 够 导入 数据 并 对 数据 进行 壳 历 ， 下 面 开始 对 数据 进行 真正 的 探索 。 


3.1.2 ”将 代码 保存 到 文件 中 并 在 命令 行 中 运行 

作为 开发 者 ， 在 写 代码 时 ， 即 使 是 中 间 过 程 的 部 分 代码 片段 ， 你 也 会 希望 保存 下 来 ， 以 便 
后 续 检查 和 使 用 。 保 持 代码 结构 清晰 ， 并 及 时 保存 代码 ， 即 使 中 途 被 打 断 ， 你 也 可 以 从 上 
次 中 断 的 地 方 顺畅 地 继续 工作 。 

我 们 将 到 目前 为 止 所 有 的 代码 保存 到 文件 中 并 运行 。 代 码 应 该 是 这 样 的 (如 果 你 还 没有 完 
成 这 一 步 的 话 ， 打 开 文本 编辑 器 ， 创 建 一 个 新 文件 ， 将 这 段 代码 输入 进去 ) : 








import csv 


csvfile = open('data-text.csv', 'rb') 
reader = csv.reader(csvfile) 


for row in reader: 

print row 
注意 大 小 写 、 间 距 和 换行 。 如 果 各 行 的 代码 间距 各 不 相同 或 者 大 小 写 错误 的 
话 ， 代 码 是 无 法 正常 运行 的 。 一 定 要 严格 按 上 面 的 代码 输入 ， 利 用 四 个 空格 
来 缩 进 。 这 一 点 很 重要 ， 因 为 Python 区 分 大 小 写 ， 并 利用 缩 进 来 表示 代码 的 
结构 。 





























用 文本 编辑 器 将 代码 保存 为 .py (Python) 文件 。 完 整 的 文件 名 应 该 是 像 这 样 的 ， import_ 
csv_data.py。 

将 数据 文件 data-text.csv 放 到 你 刚刚 保存 Python 文件 的 同一 个 文件 夹 内 。 如 果 你 想 把 文件 
放 到 其 他 位 置 ， 需 要 对 文件 位 置 对 应 的 代码 做 适当 修改 。 























打开 不 同位 置 的 文件 

在 目前 的 代码 中 ,我 们 将 文件 路 径 传 入 open 函数 ， 像 这 样 : 

open('data-text.csv', 'rb') 
但 如 果 数 据 文件 位 于 一 个 叫 作 data 的 子 文件 夹 ， 我 们 需要 修改 脚本 ， 让 它 去 那里 寻找 
数据 文件 。 修 改 后 的 代码 如 下 : 

open('data/data-text.csv', 'rb') 
在 上 面 的 例子 中 ,我们 的 文件 结构 是 像 这 样 的 : 

data_wrangling/ 

`-- code/ 

|-- import_csv_data.py 


`-- data/ 
‘-- data-text.csv 
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将 
少 


如 果 你 找 不 到 自己 的 文件 ， 可 以 在 Mac 或 Linux 计算 机 上 打开 ， 使 用 下 列 
来 浏览 文件 夹 。 


。 ls 返回 文件 的 列表 。 

。 pwd 给 出 当前 位 置 。 

。 cd ../ 进 入 上 层 文件 夹 。 

。 cd ../../ 向 上 移动 两 层 目录 。 

。 cd data 进入 data 文件 夹 ， 该 文件 夹 位 于 当前 文件 夹 下 (可 以 用 1Ls 来 查看 ) 。 


查阅 附录 C 可 以 了 解 用 命令 行 在 文件 夹 之 间 跳 转 的 更 多 内 容 ， 其 中 还 包括 针对 
Windows 用 户 的 整整 一 节 内 容 。 











保存 好 文件 后 ， 你 可 以 用 命令 行 来 运行 它 。 打 开 命 令 行 (终端 或 cmd)， 跳 转 到 文件 所 在 
的 位 置 。 假设 你 把 文件 放 在 ~/Projects/data_wrangling/code 中 。 想 要 在 Mac 命令 行 中 跳 转 
到 那里 ， 你 可 以 使 用 变更 目录 或 文件 夹 命令 〈cd) : 


cd ~/Projects/data_wrangling/code 


跳 转 到 正确 的 位 置 后 ， 你 就 可 以 运行 Python 文件 。 到 目前 为 止 ， 我 们 都 是 在 Python 解释 
器 中 运行 代码 。 我 们 将 文件 保存 为 import_csy_datapy。 想 要 在 合 8 令 行 中 运行 Python 文件 
你 只 需要 输入 python， 敲 空格 ， 然 后 输入 文件 名 即 可 。 我 们 来 试 一 下 运行 Python 文件 : 


python import_csv_data.py 


你 得 到 的 输出 看 起 来 应 该 像 一 串 列表 一 一 和 下 面 给 出 的 数据 类 似 ， 但 数据 量 要 大 得 多 。 


['Healthy life expectancy (HALE) at birth (years)', 'Published', '2012', 
'Western Pacific', 'Lower-middle-income', 'Samoa', 'Female', '66', 
'66.00000',，'',，'',，'!'] 

['Healthy life expectancy (HALE) at birth (years)', 'Published', '2012', 
"Eastern Mediterranean ， ，'Low-income', 'Yemen', 'Both sexes', '54', 
'54.00000',，'',，"'',，'"'] 

['Healthy Life eectaney (HALE) at birth (years)', 'Published', '2000', 
'Africa', 'Upper-middle-income', 'South Africa', 'Male', '49', “149.00000'， 






































['Heatlthy life expectancy (HALE) at birth (years)', 'Published', '2000', 
'Africa', 'Low-income', 'Zambia', 'Both sexes', '36', '36.00000', ''", '', "'] 
['Healthy life expectancy (HALE) at birth (years)', 'Published', '2012', 
'Africa', 'Low-income', 'Zimbabwe', 'Female'’, '51', '51.00000', '', '', '"'] 
你 得 到 上 面 的 输出 了 吗 ? 如 果 没 有 的 话 ， 花 一 分 钟 的 时 间 阅 读 你 得 到 的 错误 信息 。 从 中 发 
现 出 错 的 地 方 可 能 在 哪里 了 吗 ? 花 点 时 间 去 搜索 错误 的 原因 ， 看 看 其 他 人 解决 相同 的 错误 
都 用 了 哪些 方法 。 关 于 如 何 解 决 错误 ， 如 果 你 需要 额外 的 帮助 ， 可 查阅 附录 E。 


从 现在 开始 ， 我 们 将 会 在 代码 编辑 器 里 编写 大 多 数 代 码 ， 保 存 文件 ， 然 后 在 
命令 行 中 运行 。Python 解释 器 仍然 是 一 个 有 用 的 工具 ， 可 以 用 来 测试 代码 片 
段 ， 但 随 着 代码 变 得 越 来 越 长 、 越 来 越 复杂 ， 在 代码 提示 符 中 维护 代码 将 越 
来 越 困 难 。 
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无 论 是 我 们 正在 写 的 代码 ， 还 是 我 们 将 面 对 的 许多 其 他 问题 ， 解 决 问题 的 方法 往往 不 止 一 
种 。csv.reader() 返回 的 是 一 个 数据 的 列表 ， 里 面包 含 的 是 文件 中 的 每 一 行 数据 ， 在 我 们 刚 
开始 处 理 问题 时 ， 这 是 一 个 很 容易 理解 的 方法 。 下 面 要 对 脚本 做 少许 修改 ， 将 列表 行 改 成 字 
典 行 。 这 样 在 我 们 探索 数据 集 的 过 程 中 ， 读 取 数 据 、 对 比 数据 和 理解 数据 会 变 得 更 加 容易 。 
在 文本 编辑 器 中 ， 将 第 4 行 reader = csv.reader(csvfile) 修改 成 reader = csv. 
DictReader(csvfile)。 现 在 你 的 代码 应 该 是 这 样 的 : 















































import csv 


csvfile = open('data-text.csv', 'rb') 
reader = csv.DictReader(csvfile) 


for row in reader: 
print row 


保存 文件 并 重新 运行 ， 每 一 个 数据 记录 变 成 一 个 字典 。 字 典 的 键 来 自 于 CSV 文件 的 第 一 
行 。 后 面 所 有 行 都 是 字典 的 值 。 下 面 是 一 行 数据 对 应 的 输出 : 




















{ 
'Indicator': 'Healthy life expectancy (HALE) at birth (years)', 
'Country': 'Zimbabwe', 
'Comments': '' 
"DispLay Value': '49', 
'World Bank income group': 'Low-income', 
'Numeric': '49.00000°', 
'Sex': 'Female', 
'High': 
' Low' : Li 
'Year': '2012', 
'WHO region': 'Africa', 
'PUBLISH STATES': 'Published' 
} 


现在 我 们 已 经 成 功 地 将 CSV 数据 导入 到 Python 中 ， 也 就 是 说 ， 我 们 能 够 从 文件 中 获取 数 
据 ， 并 将 其 转换 成 Python 可 用 的 格式 〈 字 典 )，for 循环 可 以 让 我 们 直观 地 查看 数据 。 我 
们 可 以 利用 csv 库 两 种 不 同 的 reader 来 查看 数据 ， 一 种 是 列表 形式 ， 一 种 是 字典 形式 。 在 
开始 探索 和 分 析 数 据 集 时 ， 我 们 会 再 次 用 到 这 个 库 。 下 面 继续 学 习 导 入 JSON 数据 。 


3.2 JSON 数 据 


JSON 数据 是 数据 传输 最 常用 的 格式 之 一 。 人 们 喜欢 这 一 格式 ， 是 因为 它 结构 和 清晰、 易于 
阅读 且 方 便 解析 。 网 站 在 向 页 面 的 JavaScript 传输 数据 时 ，JSON 也 是 最 常用 的 数据 格式 之 
一 。 许 多 网 站 都 提供 了 支持 JSON 的 API， 我 们 会 在 第 13 章 讲 到 。 本 节 会 继续 使 用 全 球 预 
期 寿命 的 数据 。WHO 并 没有 提供 这 一 数据 的 JSON 格式 ， 但 我 们 为 本 书 创 建 了 JSON 版 
本 的 数据 ， 你 可 以 在 代码 仓库 (https://github.com/jackiekazil/data-wrangling) 中 找到 。 


如 果 文 件 的 扩展 名 是 .json， 那 里 面包 含 的 可 能 是 JSON 数据 。 如 果 文 件 扩展 
名 是 js， 那 可 能 是 JavaScript 文件 ， 但 在 少数 情况 下 也 可 能 是 命名 不 规范 的 
JSON 文件 。 
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在 代码 编辑 器 里 打开 这 个 JSON 文件 ， 你 会 发 现 每 一 条 数据 记录 都 很 像 一 个 Python 字 
每 一 行 都 有 键 和 值 ， 用 : 分 隔 ， 数 据 条 目 之 间 用 ,分隔 。 首 尾 还 有 花 括号 包围 们 。 这 
JSON 文件 的 一 条 数据 记录 : 


[ 
{ 
"Indicator":"Life expectancy at birth (years)", 
"PUBLISH STATES":"Published", 
"Year":1990, 
"WHO region":"Europe", 
"World Bank income group":"High-income", 
"Country":"Andorra", 
"Sex":"Both sexes", 
"Display VaLue" :77， 
"Numeric":77.00000, 
"Low":"", 
"High"s""; 
"Comments":"" 
}, 
] 


JSON 文件 有 时 看 起 来 和 字典 完 全 相同 ， 这 与 输出 格式 有 关 。 在 上 面 的 示例 中 ， 每 一 个 数 
据 条 目 就 是 一 个 Python 字典 (首尾 由 {和} 包围 )， 这 些 字典 又 包含 在 一 个 列表 中 ， 列表 
首尾 由 [和 ] 包围。 


如 何 导 入 JSON 数 据 


在 Python 中 导入 JSON 文件 比 导 入 CSV 文件 还 要 简单 。 下 面 的 代码 将 对 一 个 JSON 数据 
文件 执行 打开 、 加 载 、 导 入 与 输出 的 操作 : 


import json 0 















































json_data = open('data-text.json').read() 外 


data = json.Loads(json_data) © 
for item in data: @ 
print item 


@ 导入 Python 的 json 库 (https://docs.python.org/2/library/json.html)， 我 们 用 它 来 处 理 
JSON 文件 。 

@ 利用 Python 内 置 的 open 函数 打开 JSON 文件 。 文 件 名 叫 作 data-text.json (这 是 open 函 
数 的 第 一 个 参数 )。 本 行 代码 还 调用 了 已 打开 文件 的 read 方法 ， 用 来 读 取 该 文件 ， 并 将 
读 取 的 内 容 保存 在 变量 json_data 中 。 

加 利用 json.loads() 将 JSON 数据 载 入 Python， 并 将 输出 保存 在 变量 data 中 。 

@ 利用 for 循环 遍历 所 有 数据 ， 并 打印 出 每 一 项 ， 这 也 是 本 例 代 码 的 输出 。 


行 中 运行 python import_json_data.py， 输 出 是 一 个 字典 ， 里 面包 含 JSON 文件 中 
一 条 数据 记录 。 这 个 输出 应 该 和 CSYV 的 最 终 输出 基本 相同 。 一 定 要 记得 将 数据 文件 复 
制 到 脚本 所 在 的 文件 灾 ， 或 者 将 千本 中 的 文件 路 至 修 改 为 文件 实际 所 在 的 位 置 。 
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在 CSV 一 节 的 最 后 ， 我 们 学 习 了 如 何 保存 文件 并 在 命令 行 中 运行 。 在 本 例 中 ， 我 们 从 一 

个 空白 文件 开始 ， 逐 步 完 成 这 项 任务 。 

首先 来 快速 看 一 下 总 体 步 又 。 

(1) 在 代码 编辑 器 中 创建 一 个 新 文件 。 

(2) 将 文件 保存 为 import_json_data.py， 与 你 的 代码 位 于 同一 个 文件 夹 下 。 

(3) 将 数据 移动 (或 保存 ) 到 代码 所 在 的 文件 夹 。( 一 定 要 重 命名 数据 文件 ， 使 其 与 代码 中 
的 文件 名 相同 。 本 书 用 的 文件 名 是 data-text.json。 ) 

(4) 回 到 代码 编辑 器 ，import_json_data.py 文件 应 该 还 处 于 打开 状态 。 


我 们 来 通读 代码 ， 并 将 其 与 导入 CSV 的 代码 文件 作对 比 。 首 先 ， 导 入 Python 内 置 的 json 库 : 
import json 
然后 用 学 过 的 open 函数 打开 data-text.json 文件 ， 并 调用 已 打开 文件 的 read 方法 : 


json_data = open('data-text.json').read() 


在 CSYV 文件 的 例子 中 ， 我 们 并 没有 调用 read。 二 者 的 区 别 在 哪里 ? 在 CSV 的 例子 中 ， 我 
们 以 只 读 方 式 打开 文件 ， 但 在 JSON 的 例子 中 ， 我 们 读 取 文件 的 内 容 ， 并 将 其 保存 在 变量 
json_data 中 。 在 CSV 的 例子 中 ，open 函数 返回 的 是 一 个 文件 对 象 ， 但 在 JSON 的 例子 
中 ,我们 首先 打开 文件 ， 然 后 读 取 文 件 ， 所 以 得 到 的 是 一 个 str (字符 串 )。 二 者 的 不 同 是 
基于 下 列 事实 : Python 的 json 库 和 csv 库 处 理 输 入 数据 的 方式 不 同 。 如 果 你 试 着 将 一 个 
字符 串 传递 给 CSV reader，Python 会 报错 ;如 果 你 把 文件 对 象 传递 给 JSON 的 loads 函数 ， 
Python 也 会 报错 。 

好 消息 是 ， 在 Python 中 将 字符 串 写 入 文件 非常 简单 〈 比 如 说 ， 你 只 有 字符 串 ， 但 想 使 用 
CSYV reader 来 读 取 )， 将 文件 读 取 成 字符 串 也 非常 简单 。 对 Python 来 说 ， 一 个 关闭 的 文件 
只 是 一 个 文件 名 字符 串 ， 等 待 被 打开 并 读 取 。 从 文件 中 获取 数据 、 将 数据 变 成 字符 串 并 将 
字符 串 传递 给 函数 ， 只 需要 几 行 Python 代码 即 可 完成 。 


进入 保存 JSON 文件 的 文件 夹 ， 你 可 以 在 Python 解释 器 中 输入 下 面 的 代码 ， 
看 一 下 前 面 两 个 例子 中 输出 对 象 的 类 型 : 














































































































filename = 'data-text.json' 

type(open(filename,，'rb')) # 与 csv 的 代码 类 似 

type(open(filename).read()) # 与 json 的 代码 类 似 
Python json 库 的 loads 函数 接收 字符 串 作为 参数 ， 不 接收 文件 作为 参数 。Python csv 库 的 
reader 半数 接收 打开 的 文件 作为 参数 。 在 脚本 的 下 一 行 代码 中 ， 我 们 将 使 用 Loads 函数 ， 
将 JSON 字符 串 载 入 Python。 这 一 函数 的 输出 被 赋值 给 名 为 data 的 变量 : 


data = json.Loads(json_data) 
想 要 预 宽 数 据 ， 我 们 对 每 一 项 进行 遍历 并 将 其 打印 出 来 。 这 段 代码 并 不 是 必需 的 ， 但 可 以 
帮 有 我 们 预览 数据 ， 检 查 数据 的 格式 是 否 正确 : 


for item in data: 
print item 
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写 完 上 述 代 码 后 ， 保 存 文件 并 运行 。 如 你 所 见 ， 在 Python 中 打开 JSON 文件 并 将 其 转换 成 
由 字典 组 成 的 列表 是 非常 容易 的 。 下 一 市 将 探索 更 多 自 定义 文件 的 处 理 方法 。 


3.3 XML 数据 


XML 格式 的 数据 既 便 于 机 器 读 取 ， 也 便于 人 工读 取 。 但 是 对 于 本 章 的 数据 集 来 说 ， 预 
览 并 理解 CSV 文件 和 JSON 文件 要 比 XML 文件 容易 得 多 。 幸 运 的 是 ， 数 据 本 身 是 相同 
的 ， 我 们 也 比较 熟悉 。 下 载 预期 寿命 数据 的 XML 版 本 (下 载 地 址 : http://apps.who.int/gho/ 
athena/data/GHO/WHOSIS_000001,WHOSIS_000002.xml?filter=COUNTRY:*;YEAR:2015 ) ， 
并 将 XML 文件 与 本 章 其 他 内 容 保 存在 同一 文件 夹 下 。 




















如 果 文 件 的 扩展 名 是 .xml， 那 么 它 是 XML 数据 。 如 果 文 件 扩展 名 是 .html 
或 .xhtml， 有 时 也 可 以 用 XML 解析 器 来 解析 。 





在 处 理 所 有 数据 时 ， 我 们 先 在 代码 编辑 器 中 打开 文件 来 预览 一 下 。 如 果 你 滚动 查看 一 下 文 
件 ， 会 发 现 我 们 在 CSYV 的 例子 中 已 经 熟悉 的 数据 。 但 数据 看 起 来 又 不 大 一 样 ， 因 为 它 用 
的 是 XML 格式 ， 使 用 了 一 种 叫 作 标签 的 东西 。 




















XML 是 一 种 标记 语言 ， 也 就 是 说 ， 它 具有 包含 格式 化 数据 的 文档 结构 。 
XML 文档 本 质 上 只 是 格式 特殊 的 数据 文件 。 

















下 面 的 数据 片段 是 我 们 要 处 理 的 XML 数据 的 一 个 样本 。 在 这 个 例子 中 ，<0bservation />、 
<Dim /> 和 <Display /> 都 是 标签 。 标 签 (或 节点 ) 以 层次 化 和 结构 化 的 方式 保存 数据 : 


<GHO ...> 
<Data> 

<Observation FactID="4543040" Published="truye" 

Dataset="CYCU" EffectiveDate="2014-03-27" EndDate="2900-12-31"> 
<Dim Category="COUNTRY" Code="SOM"/> 
<Dim Category="REGION" Code="EMR"/> 
<Dim Category="WORLDBANKINCOMEGROUP" Code="WB_LI"/> 
<Dim Category="GHO" Code="WHOSIS_000002"/> 
<Dim Category="YEAR" Code="2012"/> 
<Dim Category="SEX" Code="FMLE"/> 
<Dim Category="PUBLISHSTATE" Code="PUBLISHED"/> 
<VaLue Numeric="46.00000"> 

<Display>46</Display> 

</Value> 

</Observation> 

<0bservation FactID="4209598" Published="truye" 

Dataset="CYCU" EffectiveDate="2014-03-25" EndDate="2900-12-31"> 
<Dim Category="WORLDBANKINCOMEGROUP" Code="WB_HI"/> 
<Dim Category="YEAR" Code="2000"/> 
<Dim Category="SEX" Code="BTSX"/> 




















<Dim Category="COUNTRY" Code="AND" /> 

<Dim Category="REGION" Code="EUR" /> 

<Dim Category="GHO" Code="WHOSIS_000001"/> 

<Dim Category="PUBLISHSTATE" Code="PUBLISHED"/> 

<VaLue Numeric="80.00000"> 
<Display>80</Display> 

</Value> 

</0bservation> 
</Data> 
</GHO> 


在 XML 文件 中 有 两 个 位 置 可 以 保存 数据 值 : 一 个 位 置 是 在 两 个 标签 之 间 ， 比 如 在 
<Display>46</Display> 中 ，<Display> 标签 的 值 是 46;， 男 一 个 位 置 是 标签 的 局 性， 比如 
在 <Dim Category="COUNTRY" Code="SOM"/> 中 ，Category 属性 的 值 是 "COUNTRY"，Code 属 
性 的 值 是 "SoM"。XML 属性 可 以 保存 特定 标签 的 额外 信息 ， 这 些 标 签 又 能 套 在 另 一 个 标 
签 中 。 


在 JSON 中 你 可 以 用 键 / 值 对 来 保存 数据 ， 而 在 XML 中 保存 数据 可 以 是 两 个 一 组 甚至 
三 四 个 一 组 。XML 用 标签 和 属性 来 保存 数据 ， 类 似 于 JSON 中 的 键 。 所 以 我 们 再 来 看 一 下 
Display 标签 ， 这 个 标签 的 值 保存 在 开始 标签 和 结束 标签 之 间 。 再 来 看 一 下 Din 市 点 ， 它 
有 两 个 不 同 的 属性 〈Category 和 code) ， 两 个 属性 都 有 对 应 的 值 。XML 可 以 在 每 个 节点 
中 保存 不 止 一 个 属性 。 如 果 你 熟悉 HTML 的 话 ， 应 该 很 熟悉 这 一 点 。 这 是 因为 HTML 与 
XML 密切 相关 : 它们 都 在 节点 (或 标签 ) 内 包含 有 属性 ， 它 们 也 都 是 标记 语言 ( 想 了 解 
什么 是 标记 语言 ， 可 以 去 https://en.wikipedia.org/wiki/Markup_language 查看 ) 。 


在 XML 标签 结构 和 属性 命名 方面 虽然 有 许多 著名 的 标准 ， 但 主要 结构 其 实 
是 由 设计 或 创建 XML 的 人 (或 机 器 ) 决定 的 。 如 果 你 用 的 是 来 自 不 同 来 源 
的 数据 集 ， 你 不 能 认为 它们 的 格式 是 一 致 的 。 想 了 解 XML 最 佳 实践 的 更 多 
内 容 ，IBM 给 出 了 许多 好 的 观点 (参见 http://www.ibm.com/developerworks/ 
library/x-eleatt/) 
























































如 何 导 入 XML 数据 


前 面 我 们 对 数据 已 经 有 了 一 定 的 了 解 ， 下 面 将 文件 导入 成 Python 可 用 的 格式 。 为 了 从 
XML 格式 中 提取 数据 并 导入 Python， 需 要 编写 这 些 代码 : 


from xmL.etree import ELementTree as ET 





tree = ET.parse('data-text.xml') 
root = tree.getroot() 


data = root.find('Data') 
aLL data = [] 


for observation in data: 
record = {} 
for item in observation: 
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Lookup_key = item.attrib.keys()[0] 


if Lookup_key == 'Numeric ' : 
rec_key = 'NUMERIC' 
rec_vaLue = item.attrib['Numeric'] 
else: 
rec_key = item.attrib[lookup_key] 
rec_value = item.attrib['Code'] 


record[rec_ key] = rec_value 
all_data.append(record) 
print all_data 
可 以 看 出 来 ， 这 比 CSV 和 JSON 的 代码 都 要 复杂 一 些 。 
我 们 来 仔细 看 一 下 。 在 代码 编辑 器 中 创建 一 个 新 文件 ， 并 将 其 保存 在 之 前 保存 代码 的 文件 
夹 中 。 文 件 名 叫 作 import_xml_data.py。 另 外 ， 如 果 你 是 从 WHO 网 站 直接 下 载 的 数据 ， 而 
不 是 从 本 书 的 仓库 中 下 载 的 ， 你 需要 将 保存 的 XML 文件 重 命名 为 data-text.xml， 并 将 它 与 
代码 放 在 同一 个 文件 夹 下 。 
首先 导入 ELementTree (https://docs.python.org/2Vlibrary/xmletree.elementtree.html) ， 这 是 我 
们 用 来 解析 XML 的 内 置 库 的 一 部 分 : 


from xml.etree import ELementTree as ET 














前 面 说 过 ， 解 决 问题 的 方法 往往 有 许多 种 。 本 例 中 用 的 是 ElementTree， 你 
也 可 以 用 一 个 叫 作 txml 的 库 (http://Ixml.de/)， 或 者 另 一 个 叫 作 minidon 的 
库 (https://docs.python.org/2/library/xml.dom.minidom.html)。 这 三 种 方法 都 可 
以 用 来 解决 相同 的 问题 ， 如 果 你 发 现 一 个 很 好 的 例子 ， 用 的 是 其 中 一 个 库 ， 
我 们 建议 你 再 用 另外 一 个 库 对 数据 进行 探索 。 在 学 习 Python 的 过 程 中 ， 选 择 
那些 看 起 来 最 容易 理解 的 库 (在 多 数 情况 下 ， 这 也 是 最 好 的 选择 )。 


与 之 前 相 比 ， 这 个 import 语句 中 多 了 一 段 : as ET。 我 们 导入 的 是 ElementTree， 但 把 它 
叫 作 ET。 为 什么 要 这 么 做 ?因为 我 们 很 懒 ， 不 想 每 次 用 到 这 个 库 时 都 输入 ElementTree。 
在 导入 名 字 很 长 的 类 或 函数 时 ， 这 是 很 常见 的 做 法 ,但 并 不 是 强制 性 的 要 求 。as 告诉 
Python， 我 们 想 用 ET 来 代表 ElementTree。 
接 下 来 ， 调 用 ET 类 的 parse 方法 ， 这 一 方法 将 会 对 我 们 传人 文件 中 的 数据 进行 解析 。 由 于 
我 们 要 解析 的 文件 位 于 同一 文件 夹 下 ， 所 以 文件 名 中 不 需要 包含 文件 路 径 : 

tree = ET.parse('data-text.xml') 
parse 方法 返回 一 个 Python 对 象 ， 人 们 一 般 会 把 它 保存 在 变量 tree 中 。 在 谈论 XML 时 ， 
树 (tree) 指 的 是 整个 XML 对 象 ， 以 Python 能 够 理解 并 解析 的 方式 保存 。 
为 了 理解 帝 历 树 (及 其 包含 的 数据 ) 的 方法 ， 我 们 从 树 的 根 元 素 (root) 开始 。 根 节点 是 
第 一 个 XML 标签 。 调 用 getroot 函数 来 获取 树 的 根 元 素 : 


root = tree.getroot() 
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如 果 你 在 上 一 条 语句 后 面 加 上 print root， 打 印 出 root 的 内 容 ， 会 发 现 ， 输 出 的 是 XML 
树 中 根 元 素 的 Python 表示 (看 起 来 应 该 像 这 样 : <ELement 'GHO' at 0x1079e79d0>”) 。 从 这 
个 表示 中 我 们 很 快 可 以 看 出 ，ELementTree 找 出 了 XML 文档 的 根 标签 或 最 外 层 标 签 ， 就 是 
标签 名 为 GH0 的 XML 节点 。 


前 面 我 们 找到 了 根 标 签 ， 下 面 要 学 习 如 何 访问 想 要 的 数据 。 在 本 章 CSV 和 JSON 两 节 中 ， 
我 们 对 数据 进行 了 分 析 ， 知 道 要 处 理 的 是 什么 数据 。 我 们 需要 遍历 整个 XML 树 ， 将 同样 
的 数据 提取 出 来 。 为 了 理解 要 寻找 的 数据 ， 需 要 先 理解 XML 树 的 整体 结构 与 格式 。 下 面 ， 
将 前 面 的 XML 文件 简化 一 下 ， 删 除数 据 ， 这 样 就 可 以 只 看 核心 结构 : 


<GHO> 
<Data> 
<0bservation> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Value> 
<Display> 
</Display> 
</Value> 
</0bservation> 
<0bservation> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Dim /> 
<Value> 
<Display> 
</Display> 
</Value> 
</0bservation> 
</Data> 
</GHO> 


在 纵览 文件 结构 时 可 以 看 到 ， 每 一 “ 行 ”数据 都 包含 在 一 个 0bservatton 标签 中 。 在 每 一 
个 Observation 节点 内 ， 这 些 数据 行 又 分 别 包 含 在 Dim、Value 和 Display 节点 中 。 

目前 我 们 有 三 行 代 码 。 为 了 研究 如 何 用 Python 将 这 些 节点 提取 出 来 ， 在 现 有 代码 的 末尾 加 
上 print dir(root)， 然 后 保存 文件 并 在 命令 行 中 运行 : 

python import_xml_data.py 


你 会 看 到 变量 root 所 有 的 方法 和 属性 。 你 的 代码 应 该 是 这 样 的 : 



























































注 2: 对 于 由 十 六 进 制 数字 组 成 的 长 字符 串 表 示 的 Python 对 象 ， 这 是 Python 显示 内 存 地 址 信息 的 方法 。 我 
们 的 数据 处 理 过 程 用 不 到 这 些 内 容 ， 所 以 如 果 你 的 内 存 地 址 与 我 们 的 有 所 不 同 ， 请 不 必 在 意 。 
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from xmL.etree import ELementTree as ET 


tree 
root 


ET.parse('data-text.xml') 
tree.getroot() 


print dir(root) 


运行 该 文件 ， 你 应 该 会 看 到 下 面 的 输出 : 

















['_class_', '_delattr__', '_delitem ', '_dict ', '_doc _', 

'__ format_ _', '_ getattribute ', '_ getitem ', '__hash _', '_ init _', 
'__len _', '_ module ', '_nNew '，' nonzero ', '_reduce _'， 
'__reduce ex ', '_repr__', '__setattr ', '_ setitem ', '_ sizeof _', 
'__str_ _', '__subclasshook ', '_ weakref ', '_children', 'append', 'attrib', 


'clear', 'copy', 'extend', 'find', 'findall', 'findtext', 'get', 

'getchildren', 'getiterator', 'insert', 'items', 'iter', 'iterfind', 

'itertext', 'keys', 'makeelement', 'remove', 'set', 'tag', 'tail', 'text'] 
假设 文件 太 大 ， 无 法 打开 ， 我们 也 不 知道 文件 的 结构 。 在 处 理 大 型 XML 数据 集 时 经 常会 
遇 到 这 样 的 问题 。 我 们 能 怎么 做 ?首先 调用 dir(root) 来 查看 root 对 象 都 有 哪些 方法 。 我 
们 注意 到 getchildren 方法 ， 也 许可 以 用 来 查看 Observation 市 点 的 子 元 素 。 在 查阅 官方 
最 新 文档 (https://docs.python.org/2/library/xml.etree.elementtree.html#xml.etree.ElementTree. 
Element.getchildren) 以 及 Stack Overflow 上 的 一 个 问题 (http://stackoverflow.com/questions/ 
10408927/how-to-get-all-sub-elements-of-an-element-tree-with-python-elementtree) 之 后 ， 我 
们 发 现 ，getchildren 方法 可 以 返回 子 元 素 ， 但 官方 文档 不 建议 继续 使 用 该 方法 。 如 果 你 
想 用 的 某 个 方法 已 经 不 建议 使 用 或 者 即将 弃 用 ， 你 应 该 尝试 换 用 库 作 者 推荐 的 方法 。 

















如 果 不 建议 使 用 某 个 方法 、 类 或 函数 的 话 ， 在 库 或 模块 的 未 来 版 本 中 很 可 能 
会 删除 它们 对 应 的 功能 。 因 此 ， 在 任何 时 候 你 都 应 该 避免 使 用 不 建议 使 用 的 
方法 或 类 ， 并 通读 文档 ， 因 为 作者 很 可 能 会 建议 未 来 使 用 的 替代 方法 或 类 。 






































根据 官方 文档 的 建议 ， 如 果 想 查看 根 元 素 的 子 元 素 ， 应 该 使 用 List(root)。 如 果 我 们 的 文 
件 很 大 ， 返 回 子 元 素 可 以 让 我 们 查看 数据 及 其 结构 ， 而 不 会 产生 超级 长 的 输出 。 让 我 们 来 
试 一 下 。 
将 这 行 代码 : 

print dir(root) 
殖 换 成 : 

print list(root) 
在 命令 行 中 再 次 运行 该 文件 。 你 应 该 会 得 到 下 面 的 输出 ， 是 一 个 由 Element 对 象 构成 的 列 
表 (对 于 本 例 来 说 ， 元 素 指 的 是 XML 节点 ) : 


[<Element 'QueryParameter' at 0x101bfd290>， 
<Element 'QueryParameter' at 0x101bfd350>， 
<Element 'QueryParameter' at 0x101bfd410>， 





























<ELement 'QueryParameter' at 0x101bfd590>， 
<ELement 'QueryParameter' at 0x101bfd610>， 
<Element 'QueryParameter' at 0x101bfd650>， 
<ELement 'Copyright' at Ox101bfd690>, 
<ELement 'Disclaimer' at 0x101bfd710>， 
<ELement 'Metadata' at 0x101bfd790>， 
<ELement 'Data' at 0x102540250>] 


列表 包含 的 Element 对 象 分 别 叫 作 QueryParameter、Copyright、Disclaimer、Metadata 和 
Data。 我 们 可 以 遍历 这 些 元 素来 探索 它们 的 内 容 ， 这 样 才 能 更 好 地 理解 如 何 提取 我 们 想 要 
的 数据 。 
在 XML 树 里 面 搜索 数据 时 ，pData 元 素 可 能 是 一 个 很 好 的 出 发 点 。 现 在 我 们 已 经 找到 了 
Data 元 素 ， 可 以 重点 研究 这 个 子 元 素 。 歼 取 Data 元 素 有 好 几 种 方法 ， 这 里 用 find 方法 。 
根 元 素 的 find 方法 可 以 利用 标签 名 来 搜索 子 元 素 。 然 后 ， 我 们 就 可 以 获取 Data 元 素 的 子 
元 素 ， 看 看 下 一 步 应 该 做 什么 。 
将 这 行 代 码 : 

print list(root) 
殖 换 成 : 


data = root.find('Data') 














print list(data) 


我 们 还 可 以 使 用 findall 方法 。find 和 findall 的 区 别 在 于 ，find 返回 的 是 
匹配 的 第 一 个 元 素 ， 而 findall 返回 的 是 匹配 的 所 有 元 素 。 我 们 知道 只 有 一 
个 Data 元 素 ， 所 以 我 们 用 的 是 find 而 不 是 findall。 如 果 有 不 止 一 个 元 素 ， 
要 用 findall 方法 获取 所 有 匹配 元 素 的 列表 ， 然 后 遍历 这 些 元 素 。 











修改 完 代 码 后 重新 运行 该 文件 ， 你 会 看 到 输出 一 个 超级 长 的 列表 ， 列 表 由 Observation 元 
素 组 成 。 这 些 是 我 们 的 数据 点 。 虽 然 输出 里 包含 很 多 信息 ， 但 你 可 以 看 出 它 是 一 个 列表 ， 
因为 最 后 一 个 字符 是 ]， 这 是 列表 结束 的 符号 。 


我 们 来 志 历 这 个 列表 中 的 数据 。 每 个 0bservation 元 素 代表 一 行 数据 ， 里 面 应 该 会 包 
含 更 多 的 信息 。 我 们 可 以 分 别人 遍历 这 些 元 素 ， 看 看 都 有 什么 子 元 素 。 对 于 Python 中 的 
Element 对 象 ， 可 以 志 历 其 所 有 的 子 元 素 ， 就 像 志 历 列表 一 样 。 因 此 ， 我 们 可 以 志 历 每 一 
个 Observation 元 素 及 其 每 一 个 子 元 素 。 这 是 我 们 第 一 次 使 用 包含 循环 的 循环 ， 从 中 我 们 
应 该 可 以 知道 是 否 还 有 更 多 包含 数据 的 子 元 素 。 

















由 于 XML 以 节点 、 子 节点 和 属性 的 方式 保存 数据 ， 你 会 经 常 采用 探索 每 一 
个 节点 和 子 节 点 (或 者 元 素 和 子 元 素 ) 的 方法 ， 直 到 你 掌握 了 数据 的 结构 ， 
以 及 如 何 用 Python 来 查看 这 些 数 据 。 
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将 这 行 代码 : 
print list(root) 
替换 成 : 


for observation in data: 
for item in observation: 
print item 


然后 重新 运行 该 文件 。 
输出 的 是 许多 Dim 和 Value 对 象 。 我 们 尝试 几 种 不 同 的 方法 ， 来 探索 这 些 元 素 中 可 能 包含 
的 内 容 。Python 的 Element 对 象 有 好 几 种 查看 数据 的 方法 。 每 个 Element 这 点 都 有 一 个 属 
性 text， 可 以 给 出 节点 内 包含 的 文本 。 
将 这 行 代 码 : 
print item 
坎 换 成 : 
print item.text 
然后 重新 运行 该 文件 。 
发 生 了 什么 ? 你 得 到 的 返回 值 应 该 是 许多 None。 这 是 因为 很 多 元 素 的 标签 之 间 没 有 任何 文 
本 ， 所 以 这 些 元 素 的 item. text 都 不 存在 。 我 们 来 看 一 下 数据 样本 里 <Dim /> 的 结构 。 例 
如 : 
<Dim Category="YEAR" Code="2000" /> 
在 Python 中， 只 有 在 节点 中 包含 文本 的 情况 下 ，item.text 才 是 有 用 的 ， 像 这 样 ， 
<Dim Category="YEAR">2000</Dim> 
对 于 第 二 个 例子 ，item.text 返回 的 是 2000。 
XML 数据 可 以 有 许多 种 结构 。 我 们 需要 的 信息 包含 在 XML 里 ， 只 是 不 在 一 眼 就 能 发 现 的 
地 方 。 我 们 来 继续 探索 。 
另 一 个 要 查看 的 地 方 在 子 元 素 中 。 我 们 来 检查 一 下 里 面 是 否 包含 子 元 素 。 将 这 行 代码 : 
print item.text 
标 换 成 ; 
print list(item) 
修改 后 重新 运行 代码 ， 从 输出 中 可 以 看 出 ， 某 些 元 素 (但 不 是 全 部 ) 具有 子 元 素 。 有 意 
思 ! 这 些 元 素 其 实 是 Value 元 素 。 我 们 来 看 一 下 数据 样本 中 这 些 元 素 的 结构 : 


<Value> 
<Display> 
</Display> 

</Value> 
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如 果 想 探索 这 些 子 元 素 ， 
中 的 元 素 。 


Python 中 的 ELenent 对 象 还 有 另 一 个 方法 可 以 调用 ， 


还 需要 写 一 个 类 似 之 前 写 过 

















叫 作 attrib， 





它 可 以 返回 每 一 


的 循环 ， 来 遍历 每 一 个 Observation 


个 节点 


的 属性 。 在 查看 XML 结构 时 我 们 已 经 知道 ， 如 果 节 点 的 标签 之 间 没 有 值 ， 那 么 在 标签 内 





通常 会 有 属性 。 

想 要 查看 节点 的 属性 ， 将 这 行 代 码 : 
print list(item) 

替换 成 ， 


print item.attrib 




















一 行 数据 保存 成 一 

attrib 输出 的 一 条 记录 : 
{'Category': 'PUBLISHSTATE', 'Code': 'PUBLISHED'} 
{'Category': 'COUNTRY', 'Code': 'ZWE'} 
{'Category': 'WORLDBANKINCOMEGROUP', 'Code': 'WB_LI'} 
{'Category': 'YEAR', 'Code': '2012'} 
{'Category': 'SEX', 'Code': 'BTSX'} 
{'Category': 'GHO', 'Code': 'WHOSIS_000002'} 
{'Category': 'REGION', 'Code': 'AFR'} 
{'Numeric': '49.00000'} 








重新 运行 代码 ， 可 以 看 到 ， 输 出 是 由 包含 在 属性 中 的 数据 组 成 的 许多 字典 。 我 们 希望 将 每 
个 字典 ， 而 不 是 将 每 一 个 元 素 及 其 属性 保存 在 不 同 的 字典 中 。 下 面 是 


在 CSV 的 例子 中 ， 我 们 得 到 了 每 条 数据 记录 组 成 的 字典 ， 我 门 试 着 把 上 面 的 输出 转换 成 


类 似 的 格式 。XML 数据 字典 的 键 稍 有 不 同 ， 因 为 WHO 在 XML 数据 集中 提供 的 数据 与 








CSV 数据 集 并 不 相同 。 我 们 将 会 把 数据 转换 成 下 面 的 格式 ， 


影响 我 们 对 数据 的 使 用 。 
提醒 一 下 ，CSV reader 的 样本 数据 记录 如 下 : 








但 键 名 可 以 不 同 。 这 基本 不 


{ 
'Indicator': 'Healthy life expectancy (HALE) at birth (years)', 
'Country': "Zimbabwe ' ， 
" Comments ' : '! 
"DispLay Valuye': '51', 
'World Bank income group': 'Low-income', 
'Numeric': "51.00000 ' ， 
"Sex' : 'Female', 
'High': "! 
EN 
'Year': '2012', 
'WHO region': 'Africa', 
'PUBLISH STATES': 'Published' 
} 


对 于 样本 数据 记录 ， 我 们 希望 将 XML 数据 转换 成 下 面 的 


人 人 
区 二 


EF 子 。 在 解析 完 XML 树 之 后 





我 们 希望 数据 的 格式 就 是 这 样 : 
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"COUNTRY ' : 'ZWE', 
'GHO': 'WHOSIS_000002', 
'Numeric': '49.00000 ' ， 
"PUBLISHSTATE' : ”PUBLISHED ' ， 
REQOION 2AFER 5 
SEX 四 TSX2 2 
"NORLDBANKINCOMEGROUP ' : 'WB_LI', 
"YEAR ' : "2012 

} 


注意 High 和 Low 字段 是 缺失 的 。 如 果 XML 数据 集中 这 两 个 字段 没有 缺失 的 话 ， 我 们 会 
把 它们 添加 到 新 字典 的 键 中 。Display 的 值 也 是 缺失 的 。 我 们 决定 不 用 这 个 值 ， 因 为 它 和 
Numeric 的 值 相同 。 


现在 你 的 代码 应 该 是 像 这 样 的 : 


from xmL.etree import ELementTree as ET 





























tree 
root 


ET.parse('data-text.xml') 
tree.getroot() 


data = root.find('Data') 


for observation in data: 
for item in observation: 
print item.attrib 


想 要 创建 数据 结构 ， 首 先 要 为 每 一 条 数据 记录 创建 一 个 空 字典 。 我 们 向 空 字典 中 添加 键 值 
对 ， 然 后 将 每 一 条 数据 记录 添加 到 一 个 列表 中 ， 这 样 我 们 最 终 的 列表 中 就 包含 了 所 有 的 数 
据 记 录 (类 似 于 前 面 的 CSV 数据 )。 
首先 创建 用 来 保存 数据 的 空 字典 和 空 列表 。 在 最 外 层 for 循环 上 面 ， 添 加 一 行 代码 : all 
data = []， 然 后 将 record = 人 作为 for 循环 的 第 一 行 ， 像 这 样 : 

aLL data = [] 


























for observation in data: 
record = {} 
for item in observation: 
print item.attrib 


现在 要 找 出 每 一 行 的 键 和 值 ， 并 将 其 添加 到 数据 记录 的 字典 中 。 每 一 次 调用 attrib， 都 会 
得 到 包含 一 个 或 多 个 键 值 对 的 字典 ， 像 这 样 : 

{'Category': 'YEAR', 'Code': '2012'} 
看 上 去 Category 键 的 值 (这 里 是 YEAR) 应 该 是 新 字典 的 键 ， 而 Code 的 值 (这 里 是 2012) 


应 该 被 设 成 对 应 的 值 。 回 想 第 2 章 学 过 的 内 容 ， 字 典 的 键 应 该 易于 检索 (比如 YEAR)， 字 
典 的 值 应 该 包含 与 键 对 应 的 值 ( 比 如 2612)。 认 识 到 这 一 点 ， 前 面 一 行将 变 成 : 


'YEAR': '2012" 


将 代码 中 的 print item.attrib 修改 成 print item.attrib.keys()， 然 后 重新 运行 该 文件 : 
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for item in observation: 
print item.attrib.keys() 


输出 的 是 每 一 个 属性 字典 的 键 。 我 们 想 查看 字典 的 键 ， 这 样 才 能 构建 新 字典 的 键 值 对 。 我 
们 发 现 只 有 两 种 不 同 的 输出 : ['Category'，'Code'] 和 ['Numeric']。 我 们 对 两 种 情况 分 别 
处 理 。 根 据 前 面 的 研究 ， 对 于 同时 具有 Category 和 Code 的 元 素 ， 需 要 用 Category 的 值 作 
为 键 ， 用 code 的 值 作为 值 。 

要 做 到 这 一 点 ， 在 item.attrib.keys() 的 结尾 添加 [0]: 


for item in observation: 
lookup_key = item.attrib.keys()[0] 
print Lookup_key 


这 叫 索 引 (indexing)。 返 回 的 是 列表 的 第 一 个 元 素 。 




















使 用 列表 索引 

对 于 Python 中 的 列表 或 其 他 可 迭代 对 象 ， 索 引 指 的 是 取出 列表 的 第 nn 个 对 象 。Python 
的 索引 从 0 开始， 也 就 是 说 ， 第 一 个 元 素 的 编号 是 0， 第 二 个 元 素 是 1， 以 此 类 推 。 由 
于 我 们 的 列表 中 有 一 个 或 两 个 元 素 ， 我 们 只 想 要 第 一 个 元 素 ， 所 以 在 代码 中 加 了 [9]。 
回头 看 一 下 上 一 章 中 狗 狗 的 例子 : 

dog_names = ['Joker', 'Simon', 'Ellie', 'Lishka', 'Fido'] 
如 果 想 从 列表 中 提取 出 Ellie， 那 你 想 要 的 是 列表 的 第 三 个 元 素 。 由 于 索引 编号 从 0 开 
始 ， 你 可 以 用 下 面 的 代码 提取 出 这 个 元 素 : 

dog_names[2] 
在 Python 解释 器 中 试 一 下 上 面 的 代码 ， 然 后 尝试 提取 出 Simon。 如 果 用 负数 作为 索引 
会 怎么 样 ? (提示 : 负数 索引 是 从 列表 末尾 个 着 向 前 数 ! ) 











重新 运行 代码 ， 输 出 应 该 是 这 样 的 : 


Category 
Category 
Category 
Category 
Category 
Category 
Category 
Numeric 


现在 我 们 有 了 键 的 名 字 ， 下 面 要 寻找 键 对 应 的 值 。 我 们 要 用 Category 键 的 值 作为 新 字典 的 
键 。 在 内 层 for 循环 中 创建 一 个 新 变量 rec_key， 用 来 保存 item.attrib[lookup_key] 返回 
的 值 : 


for item in observation: 
Lookup_key = item.attrib.keys()[0] 
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rec_key = item.attrib[lookup_key] 
print rec_key 


修改 完成 后 ， 在 命令 行 中 重新 运行 代码 。 对 于 每 一 条 数据 记录 ， 我 们 得 到 下 面 的 值 : 


PUBLISHSTATE 
COUNTRY 
WORLDBANKINCOMEGROUP 
YEAR 

SEX 

GHO 

REGION 

49.00000 


看 起 来 都 很 适合 做 新 字典 的 键 ， 除 了 最 后 一 个 。 这 是 因 
而 不 是 我 们 要 处 理 的 Category 字典 。 如 果 想 保留 这 些 ; 
这 些 数值 元 素 创建 一 种 特殊 情况 。 


后 一 个 元 素 是 Numeric 字典 ， 
供 后 续 使 用 ， 需 要 用 if 语句 为 


























Python 的 if 语句 
if 语句 最 基本 的 形式 ， Wu I 代码 流 的 方法 。if 语句 是 在 告诉 代码 : 如 果 满 足 该 
条 件 ， 那 就 执行 给 定 的 命 
话语 向 的 另 一 种 用 法 是 与 else 一 起 使 用 。if-else 语 向 的 意思 是 : 如 果 满 足 第 一 个 条 
件 ， 那 么 执行 相应 的 命令 ; 但 如 果 不 满足 该 条 件 ， 那 么 执行 else 语 向 中 的 命令 。 


除了 if 和 if-else 之 外 ,你 还 会 将 == 作为 比较 运算 符 。== 用 来 给 变量 赋值 ， 而 = 
用 来 检验 两 个 值 是 否 相 等 。 另 外 ，!= 用 来 检验 两 个 值 是 否 不 相等 。 这 两 个 运算 符 返 回 
的 都 是 布尔 值 : True 或 FaLse。 
在 Python 解释 器 中 试 试 下 面 的 例子 : 
X = 5 
if x == 5: 
print 'x is equaL to 5." 
你 看 到 了 什么 x == 5 返回 的 是 True， 所 以 打印 出 了 相应 的 文字 。 现 在 试 一 下 这 个 : 
xXx=3 
if x == 
print 'x is equaL to 5.' 


else: 
print 'x is not equal to 5." 


本 例 中 Xx 等 于 3， 不 等 于 5， 所 以 你 应 该 会 看 到 else 代码 块 中 print 语句 的 输出 。 在 
Python 中 ， 你 可 以 用 if 和 if-else 语句 来 帮助 控制 代码 流 的 逻辑 。 











当 Lookup_key 等 于 Numeric 上 时， 我 们 希望 使 用 Numeric 作为 新 字典 的 键 ， 而 不 是 用 它 对 应 
的 值 作 为 新 字典 的 键 (就 像 Category 键 那样 ) 。 将 代码 修改 成 





for item in observation: 


Lookup_key = item.attrib.keys()[0] 


if Lookup_key == 'Numeric': 
rec_key = 'NUMERIC' 
else: 


rec_key = item.attrib[lookup_key] 
print rec_key 


运行 修改 后 的 代码 ， 现 在 所 有 的 键 看 起 来 应 该 都 是 我 们 想 要 的 。 下 面 提 取出 想 要 保存 在 新 
字典 中 的 值 ， 并 将 它们 与 这 些 键 相 关联 。 对 于 Numertc， 问 题 比较 简单 ， 因 为 我 们 只 想 要 
Numeric 键 对 应 的 值 。 对 代码 作 如 下 修改 : 


if Lookup_key == 'Numeric ' : 
rec_key = 'NUMERIC 
rec_value = item.attrib['Numeric'] 
else: 
rec_key = item.attrib[lookup_key] 
rec_vaLue = None 




















print rec_key, rec_value 
运行 修改 后 的 代码 ， 你 会 发 现 Numeric 的 rec_value 已 经 匹配 好 了 。 比 如 ; 


NUMERIC 49.00000 








本 对 于 其 他 所 有 的 值 ， 我 们 将 rec_vatue 设置 成 None。 在 Python 中 ，None 用 来 表示 一 个 空 值 。 
电 我 们 来 将 这 些 空 值 填 上 真实 的 数值 。 记 得 每 一 条 数据 记录 都 有 一 个 Category 键 和 一 个 Code 


键 ， 像 这 样 : { Category' : 'YEAR'，'Code': '2012'}。 对 于 这 些 元 素 ， 我 们 想 将 Code 的 值 
保存 为 rec_value。 修 改 这 一 行 代 码 : rec_value = None， 将 if-else 语句 改 成 下 面 这 样 : 
if Lookup_key == 'Numeric': 
rec_key = 'NUMERIC' 
rec_value = item.attrib['Numeric'] 
else: 


rec_key = item.attrib[lookup_key] 
rec_value = item.attrib['Code'] 


print rec_key, rec_value 


重新 运行 代码 ， 你 现在 应 该 会 看 到 ，rec_key 和 rec_value 都 有 相应 的 值 。 下 
暴 ， 


人， 





下 来 创建 字 














TI 





if Lookup_key == 'Numeric': 
rec_key = 'NUMERIC 
rec_value = item.attrib['Numeric'] 
else: 
rec_key = item.attrib[lookup_key] 
rec_value = item.attrib['Code'] 


record[rec_key] = rec_value @ 


@ 将 每 一 个 键 值 对 添加 到 record 字典 中 。 
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我 们 还 需要 将 每 一 条 数据 记录 添加 到 aLL_data 列表 中 。 在 2.3.3 节 中 讲 过 ， 可 以 用 列表 的 


append 方法 向 列表 中 添加 元 素 。 在 外 层 for 循环 的 结尾 ， 
素 的 键 ， 这 时 我 们 将 record 添加 到 列表 中 。 最 后 ， 在 文 们 











record 中 已 经 包含 了 每 一 个 子 元 
F 结 尾 添加 print 来 查看 数据 。 





将 XML 树 转 换 成 字典 的 全 部 代码 应 该 是 这 样 的 : 


from xml.etree import ElementTree as ET 


tree = ET.parse('data-text.xml') 
root = tree.getroot() 

data = root.find('Data') 
all_data = [] 


for observation in data: 
record = {} 
for item in observation: 


Lookup_key = item.attrib.keys()[0] 
'Numeric': 


"NUMERIC ' 
= item.attrib['Numeric'] 


if Lookup_key 
rec_key = 
rec_value 
else: 
rec_key = item.attrib[lookup_key] 
rec_value = item.attrib['Code'] 


record[rec_ key] = rec_value 
all_data.append(record) 


print all_data 


运行 上 面 的 代码 ， 你 会 看 到 一 个 长 列表 ， 列 表 的 元 素 是 每 一 条 数据 记录 组 成 的 字典 ， 
CSYV 例子 中 的 相同 : 
{'COUNTRY': 'ZWE', 'REGION': 'AFR', 'WORLDBANKINCOMEGROUP': 'WB_LI', 


'NUMERIC': '49.00000', 'SEX': 'BTSX', 'YEAR': '2012', 
'PUBLISHSTATE': 'PUBLISHED', 'GHO': 'WHOSIS_000002'} 


可 以 看 出 来 ， 从 XML 中 提取 数据 要 稍 复 杂 一 些 。 有 时 CSYV 文件 和 JSON 文件 也 并 不 像 本 
章 的 例子 那样 容易 处 理 ， 但 它们 通常 比 XML 文件 容易 处 理 一 些 。 但 是 ， 作 为 Python 开发 





与 












































人 员 ， 处 理 XML 数据 让 你 可 以 深入 探索 并 成 长 ， 让 你 可 以 创建 空 列表 和 字典 ,然后 向 里 
而 填充 数据 。 在 研究 如 何 从 XML 树 结构 里 提取 数据 的 过 程 中 ， 你 还 锻炼 了 自己 的 调试 能 
力 。 在 通 往 成 为 更 优秀 的 数据 分 析 员 的 路 上 ， 这 些 都 是 宝贵 的 经 验 。 








3.4 小 结 


能 够 用 Python 处 至 
JSON 和 XML 三 种 文件 类 型 。 表 3-2 给 














机 器 可 读 的 数据 格式 ， 这 是 数据 处 理 的 必 有 备 技 能 之 一 。 本 章 讲 了 CSV、 
上 了 在 处 理 WHO 数据 的 不 同文 件 格式 时 所 用 到 的 
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Python 库 。 
表 3-2: 文件 类 型 和 文件 扩展 名 











文件 类 型 文件 扩展 名 Python 库 
CSV、TSV .CSV、 .tsV csv 库 (https://docs.python.org/2/library/csv.html) 
JSON json、 .js json 库 (https://docs.python.org/2/library/json.htm!l) 


我 们 还 讲 了 一 些 新 的 Python 概念 。 现 在 你 应 该 知道 如 何在 Python 解释 器 中 运行 Python 代 
码 ， 以 及 如 何 将 代码 保存 到 新 文件 ， 并 在 命令 行 中 运行 。 我 们 还 学 习 了 用 import 导入 文 
件 ， 以 及 用 Python 的 read 和 open 打开 本 地 文件 并 读 取 。 


我 们 讲 的 编程 新 概念 还 包括 用 for 循环 遍历 文件 、 列 表 或 树 ， 还 有 用 if-else 语句 判断 特 
定 条 件 是 否 满足 ， 然 后 据 此 执行 对 应 的 命令 。 表 3-3 对 本 章 学 过 的 新 函数 和 代码 逻辑 做 了 
总 疆 


4 一 Do 


表 3-3: Python 编程 的 新 概 和 

















oy 


























[5 
念 作用 

import (https://docs.python.org/2/reference/simple_stmts.html#import) 向 Python 中 导入 模块 

open (https://docs.python.org/2/library/functions.html#open) 内 置 函数 ， 用 Python 打开 本 
地 文件 

for 循环 (http://anh.cs.luc.edu/python/hands-on/3.1/handsonHtml/loops. 一 段 代 码 ， 运行 n 次 

html#basic-for-loops) 

if-else 语句 (http://anh.cs.luc.edu/python/hands-on/3.1/handsonHtml/ 如 果 满 足 特定 条 件 ， 运 行 一 

ifstatements.html#simple-if-statements ) 段 代 码 

== (等 于 运算 符 ，https://docs.python.org/2/reference/expressions.html#not-in) ”检验 两 个 值 是 否 相 等 











序列 索引 (https://docs.python.org/2/library/stdtypes.html#sequence-types-str- ” 取出 序列 (字符 串 、 列 表 
unicode-list-tuple-bytearray-buffer-xrange) 等 ) 中 第 nn 个 对 象 


最 后 ， 我 们 在 本 章 创建 并 保存 了 许多 代码 文件 和 数据 文件 。 假 如 你 完成 了 本 章 的 所 有 练 
习 ， 应 该 有 三 个 代码 文件 和 三 个 数据 文件 。 本 章 前 面 推荐 过 组 织 代码 的 方法 。 如 果 你 还 没 
有 照 做 的 话 ， 现 在 马上 去 做 。 这 是 目前 所 有 文件 的 组 织 结构 示例 : 


data_wrangling/ 
code/ 

ch3_easy_data/ 
import_csv_data.py 
import_xml_data.py 
import_json_data.py 
data-text.csv 
data-text.xml 
data-json.json 

ch4_hard_data/ 


























接 下 来 ， 我 们 要 学 习 更 复杂 的 数据 格式 ! 
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第 4 章 


处 理 Excel 文 件 





与 上 一 章 的 数据 不 同 ， 将 本 章 和 下 一 章 的 数据 导入 Python 不 会 那么 轻松 ， 某 些 数 据 的 导入 
需要 花 点 工夫 。 这 是 因为 有 些 数据 格式 是 用 于 机 器 读 取 的 ， 而 另 一 些 数据 格式 是 通过 桌面 
工具 来 交互 的 ， 比 如 我 们 即将 看 到 的 那些 数据 。 在 本 章 和 下 一 章 里 ， 我 们 将 研究 两 种 文件 
类 型 实例 : Excel 文件 和 了 PDF， 并 给 出 几 条 一 般 性 说 明 ， 在 遇 到 其 他 文件 类 型 时 可 以 参考 。 
目前 为 止 ， 你 在 本 书 中 学 到 的 数据 导入 方法 都 是 比较 常规 的 方法 。 本 章 我 们 将 开始 学 习 一 
些 数 据 处 理 过 程 ， 每 次 处 理 过 程 之 间 都 会 有 很 大 差异 。 虽 然 过 程 更 加 困难 ， 但 最 终 目标 是 
相同 的 : 提取 有 用 信息 ， 并 将 其 转换 成 Python 可 用 的 格式 。 

本 章 和 下 一 章 的 例子 中 使 用 的 数据 来 自 于 UNICEF (联合 国 儿 童 基 金 会 ) 2014 年 的 报告 ， 
报告 主题 是 “世界 儿童 状况 ”(http:Wwww.unicef.org/sowc2014/numbers/) 。 数 据 有 PDF 和 
Excel 两 种 格式 .。 

当 需 要 从 这 些 更 难处 理 的 文件 格式 中 提取 数据 时 ， 你 可 以 想象 文件 里 面 有 一 个 很 恨 你 的 
人 ， 因 为 过 程 可 能 很 痛苦 。 我 们 向 你 保证 ， 在 大 多 数 情 况 下 ， 生 成 数据 文件 的 人 只 是 不 知 
道 发 布 机 器 可 读 格 式 文件 的 重要 性 。 


4.1 安装 Python 包 

首先 我 们 要 学 习 如 何 安装 Python 外 部 包 (或 库 )。 目 前 为 止 ， 我 们 使 用 的 Python 库 都 是 在 
安装 Python 时 默认 安装 的 。 还 记得 在 第 3 章 里 我 们 导入 的 csv 和 json 包 吗 ? 它们 属于 标 
准 库 里 的 程序 包 ， 在 安装 Python 时 默认 安装 。 

Python 默认 安装 了 一 些 常 用 库 。 由 于 许多 库 并 不 常用 ， 所 以 你 需要 手动 指定 安装 。 如 果 把 
Python 所 有 的 库 都 装 到 电脑 里 ， 占 用 的 空间 会 很 大 。 
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Python 库 有 一 个 汇总 在 线 目 录 ， 叫 作 PyPI (https://pypi.python.org/pypi)， 里 面 保 存 了 大 量 
的 Python 包 及 其 元 数据 和 文档 。 
本 章 我 们 要 处 理 的 是 Excel 文件 。 在 浏览 器 中 访问 PyPI 网 站 ， 你 可 以 搜索 与 Excel 相关 的 
库 (搜索 结果 见 https://pypi.python.org/pypi?:action=search&zterm=excel&submit=search)， 搜 
索 结果 中 有 许多 可 以 下 载 的 Python 包 。 这 是 搜索 应 该 使 用 哪个 Python 包 的 一 种 方法 。 
从 现在 开始 ， 我 们 将 使 用 pip 来 安装 Python 包 。 安 装 pip (安装 方法 见 https://pip.pypa.io/ 
emlatest/installing/#install-pip) 的 方法 有 很 多 种 ， 你 在 第 1 章 里 应 该 已 经 安装 好 了 。 
首先 ， 要 找 出 Excel 中 的 数据 值 。 我 们 通过 安装 外 部 包 xLrd (https://pypi.python.org/pypi/ 
xlrd/0.9.3) 来 实现 。 我 们 用 pip 安装 : 

pip install xLrd 





























运行 uninstall 命令 可 以 印 载 这 个 Python 包 : 
pip uninstall xlrd 


试 一 下 安装 xXLrd， 然 后 务 载 ， 然 后 重新 安装 。 掌 握 pip 命令 是 很 有 用 的 ， 因 为 在 本 书 中 和 
你 的 数据 处 理 生涯 中 都 会 经 常用 到 这 些 命令 。 


有 那么 多 可 选 的 Python 包 ， 为 什么 选择 xLrd 呢 ? 选择 Python 库 的 过 程 是 不 完善 的 。 挑 选 
的 方法 有 许多 种 。 不 要 试图 去 找到 正确 的 库 。 在 磨炼 自身 技能 的 过 程 中 ， 你 可 能 需要 从 几 
个 库 中 选择 ， 选 择 你 能 理解 的 那个 库 。 


我 们 建议 ， 首 先 要 去 网 络 上 搜索 ， 看 看 其 他 人 推荐 了 哪些 库 。 如 果 搜 索 “ 用 python 解析 
excel” (https:Wwww.google.com.sg/search?q=parse+excel+using+python&coq=parse+excel+usin 
gtpython&gws_rd=cr&ei=Zu7gV-L_FYqEmgH_zKT4Cg)， 你 会 在 发 现 搜索 结果 前 儿 条 里 就 
有 xlrd 库 。 

但 是 答案 并 不 总 是 这 么 明显 。 在 第 13 章 研究 Twitter 库 时 ， 我 们 将 学 习 更 多 关于 选择 过 程 
的 内 容 。 


4.2 解析 Excel 文 件 


想 从 Excel 工作 表 中 提取 数据 ， 有 时 最 简单 的 方式 反而 是 寻找 更 好 的 方法 来 获取 数据 。 直 
接 解 析 有 时 并 不 能 解决 问题 。 在 开始 解析 文件 之 前 ， 先 回答 下 面 儿 个 问题 。 


。 你 是 否 尝试 过 寻找 其 他 格式 的 数据 ? 有 时 同一 个 数据 源 可 能 也 会 提供 其 他 格式 的 数据 。 
。 你 是 否 尝试 过 电话 咨询 ， 询 问 数据 是 否 还 有 其 他 格式 ?在 第 6 章 中 给 出 了 更 多 建议 。 

。 你 是 否 尝试 过 将 Excel 文件 (或 文档 阅读 器 ) 的 一 个 或 多 个 标签 导出 成 CSV 格式 ?如 
有 果 你 的 Excel 工作 表 中 只 有 几 个 标签 里 有 数据 ， 或 者 只 有 一 个 标签 里 的 独立 数据 ， 这 是 
一 种 很 好 的 解决 办 法 。 


如 果 这 些 方法 你 都 试 过 了 ， 还 是 找 不 到 你 想 要 的 数据 ， 那 你 就 需要 用 Python 来 解析 Excel 
文件 。 
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4.3 ”开始 解析 


我 们 解析 Excel 文件 用 的 是 xLrd 库 。 这 个 库 是 用 Python 处 理 Excel 文件 的 一 系列 库 
(http://www.python-excel.org/) 之 一 。 
处 理 Excel 文件 主要 有 三 个 库 。 
。 xlrd 

读 取 Excel 文件 。 
。 xlwt 

向 Excel 文件 写 入 ， 并 设置 格式 。 
。 xlutils 

一 组 Excel 高 级 操作 工具 (需要 先 安装 xlrd 和 xLwt ) 。 
在 用 到 这 三 个 库 的 时 候 你 需要 分 别 安装 。 但 本 章 只 会 用 到 xLrd。 我 们 要 将 Excel 文件 读 取 
到 Python 中 ， 所 以 你 先 要 检查 是 否 安装 了 xlrd: 


pip install xlrd 











如 果 你 得 到 以 下 错误 信息 ， 说 明 你 没有 安装 pip: 


bash: pip: command not found 





有 关 pip 的 安装 说 明 ， 可 以 查阅 1.2.4 节 ， 也 可 以 访问 https://pip.pypa.io/en/ 
latest/installing/。 


按 步骤 完成 以 下 内 容 ， 即 可 安装 好 Excel 文件 的 工作 环境 (也 可 能 是 类 似 的 步 又， 这 和 你 
的 文件 组 织 系统 有 关 )。 
(1) 为 Excel 任务 创建 一 个 文件 夹 。 
(2) 创建 一 个 新 的 Python 文件 ， 文 件 名 叫 parse_excel.py， 把 它 放 到 上 面 创建 的 文件 夹 中 。 
(3) 从 本 书 仓库 (https://github.com/jackiekazil/data-wrangling) 下 载 名 为 SOWC 2014 Stat 
Tables_Table 9.xlsx 的 Excel 文件 ， 放 到 同一 个 文件 夹 中 。 
进入 这 个 文件 夹 ， 在 终端 中 输入 下 面 的 命令 ， 从 命令 行 中 运行 该 脚本 : 
python parse_excel.py 
学 完 本 章 后 ， 我 们 写 的 脚本 就 可 以 解析 这 个 Excel 文件 中 保存 的 童工 数据 和 童 婚 数 据 。 
在 脚本 文件 的 开头 ， 我 们 需要 导入 xLrd 库 ， 然 后 用 Python 打开 Excel 工作 短 。 我 们 将 打 
开 的 文件 保存 在 变量 book 中 : 


import xLrd 



































book = xLrd.open_workbook('SONC 2014 Stat Tables_Table 9.xlsx') 


与 CSV 不 同 ，Excel 工作 衍 可 以 有 多 个 标签 (tab) 或 工作 表 (sheet)。 想 要 获取 数据 ， 我 
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们 要 找到 包含 目标 数据 的 工作 表 。 


如 果 有 几 个 工作 表 ， 你 可 以 猜 一 下 索引 号 ， 但 如 果 工 作 表 很 多 的 话 就 没 法 猜 了 。 所 以 你 应 
该 知道 book.sheet_by_name(somename) 命令 ， 其 中 somename 是 你 要 访问 工作 表 的 名 字 。 


我 们 来 看 一 下 工作 表 都 有 哪些 名 字 : 


import xtLrd 





book = xlrd.open_workbook('SOWC 2014 Stat Tables_Table 9.xlsx') 


for sheet in book.sheets(): 
print sheet.name 


我 们 要 找 的 工作 表 是 Table 9。 所 以 我 们 把 这 个 名 字 添 加 到 脚本 中 : 
import xLrd 


book = xlrd.open workbook('SOWC 2014 Stat Tables_Table 9.xlsx') 
sheet = book.sheet_by_name('Table 9') 


print sheet 
运行 上 面 的 代码 ， 程 序 会 退出 ， 并 给 出 以 下 错误 信息 : 

xlrd.biffh.XLRDError: No sheet named <'Table 9'> 
这 时 你 可 能 有 些 困惑 不 解 。 问 题 在 于 我 们 看 到 的 内 容 与 实际 内 容 并 不 相同 。 
打开 Excel 工作 敌 ， 双 击 工作 表 名 选中 它 ， 你 会 发 现在 结尾 有 一 个 多 出 来 的 空格 。 用 户 在 
浏览 时 是 看 不 到 这 个 空格 的 。 第 7 章 中 我 们 将 学 习 如 何 用 Python 处 理 这 样 的 错误 。 现 在 我 
们 暂且 在 代码 中 加 一 个 空格 。 
将 这 行 代 码 : 

sheet = book.sheet by_name('Table 9') 
修改 成 : 

sheet = book.sheet by _name('Table 9 ') 
现在 运行 脚本 应 该 一 切 正常 了 。 你 会 看 到 类 似 这 样 的 输出 : 

<xlrd.sheet.Sheet object at 0x102a575d0> 
我 们 来 探索 一 下 能 对 工作 表 做 哪些 事情 。 在 给 sheet 变量 赋值 后 ， 添 加 这 行 代码 ， 然 后 重 
新 运行 脚本 : 

print dir(sheet) 
在 返回 的 列表 中 ， 你 会 发 现 一 个 叫 作 nrows 的 方法 。 我 们 将 用 这 个 方法 来 人 帝 历 所 有 行 。 如 
果 加 上 print sheet.nrows， 返回 值 是 总 行 数 。 


print sheet.nrows 
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你 得 到 的 返回 值 应 该 是 393。 我 们 要 遍历 每 一 行 ， 也 就 是 说 我 们 需要 一 个 for 循环 。 在 
3.1.1 节 我 们 学 过 ，for 循环 可 以 遍历 列表 中 的 元 素 ， 所 以 我 们 需要 将 363 转换 成 一 个 列表 ， 
这 样 就 可 以 遍历 303 次 。 我 们 将 使 用 range 函数 来 实现 。 

















什么 是 range() ? 
还 记得 我 们 说 过 ，Python 有 许多 有 用 的 内 置 函 数 吗 ? range 就 是 其 中 之 一 。range 函数 
(https://docs.python.org/2/library/functions.html#range) 接收 一 个 数字 作为 参数 ， 输 出 一 
个 那么 多 元 素 组 成 的 列表 。 
打开 Python 解释 器 ， 输 入 下 面 的 代码 ， 看 看 range 函数 的 输出 是 什么 样 的 : 
range(3) 
输出 应 该 是 : 
[0，1，2] 
返回 了 三 个 元 素 。 现 在 我 们 可 以 创建 一 个 for 循环 对 列表 遍历 三 次 。 
关于 range 函数 需要 注意 以 下 两 点 。 
。 返回 的 列表 是 从 0 开始 的 。 这 是 因为 Python 列表 索引 是 从 0 开始 的 。 如 果 你 想 让 
列表 从 1 开始 ,可 以 设置 范围 的 始末 。 比 如 ,range(1，4) 返回 的 是 [1，2，3]。 注 意 ， 
列表 中 不 包含 最 后 一 个 数字 , 如果 想得到 的 是 [1，2，3], 需要 将 第 二 个 数字 设 为 4。 


。 Python 2.7 还 有 一 个 叫 作 xrange 的 函数 。 二 者 略 有 不 同 ， 但 只 有 在 处 理 大 型 数据 集 
时 才 会 发 现 xrange 的 速度 要 更 快 一 些 。 














有 了 range 函数 ， 就 可 以 将 363 转换 成 一 个 列表 ， 用 于 for 循环 的 遍历 ， 我 们 的 脚本 应 访 
是 像 这 样 的 ， 


import xlrd 





book = xlrd.open_workbook('SOWC 2014 Stat Tables_Table 9.xlsx') 
sheet = book.sheet by _name('Table 9 ') 


for i in range(sheet.nrows ) : 0 
print i 2 | 

@ 对 range(303) 的 索引 号 i 做 循环 ，range(303) 是 一 个 包含 303 个 连续 整数 的 列表 。 
@ 输出 i， 是 从 0 到 302 的 连续 整数 。 
下 面 需要 查找 每 一 行 ， 提 取出 每 行 的 内 容 ， 而 不 是 仅仅 打印 编号 。 要 实现 查找 功能 ， 需 要 
用 作为 索引 编号 来 定位 第 n 行 。 
我 们 用 row_values 来 获取 每 一 行 的 值 ， 这 个 方法 是 之 前 dir(sheet) 给 出 的 。 根 据 row_values 
的 文档 (http://www.lexicon.net/sjmachin/xlrd.html#xlrd.Sheet.row_values-method) ， 我 们 知道 
这 个 方法 接收 一 个 索引 数字 ， 返 回 对 应 行 的 值 。 将 这 个 方法 添加 到 for 循环 中 ， 重 新 运行 
脚本 : 























for i in range(sheet.nrows ) : 
print sheet.row_values(i) 0 


@ 利用 i 作为 索引 来 查找 对 应 行 的 值 。 由 于 这 个 方法 是 在 for 循环 中 ，for 循环 的 次 数 等 
于 工作 表 的 长 度 ， 所 以 我 们 对 数据 表 的 每 一 行 都 调用 了 这 个 方法 。 


运行 代码 ， 每 行 都 输出 一 个 列表 。 下 面 给 出 的 是 一 部 分 输出 : 




















es u'TABLE 9 . CHILD PROTECTION ' ， es I 3 Ps I By ss "9 os 
人 ns Ss I sg We ee Es "| 

['', '', Uy'TABLEAU 9. PROTECTION DE LNU2019ENFANT' ，''，''，"'， 
Te J 0 i 党 业 0 11 于 :用 a 人 Li ， 

| 'TABLA 9 PROTECCI\xd3N INFANTIL', Ed a 
Ue Do Dy We 人 pe 至 二 Ee I i | 

Es ss ee i SR Se a Ps Dg Ls J ns es 人 3 hs Pe 
Es 2 加 | 

['', u'Countries and areas', '', '', Uy'Child Labour (%)+\n2005\u20132012*',''，, 


，','','', U'Child marriage (%)\n2005\u20132012*', '', '', '', U'Birth 
registration (%)+\n2005\u20132012*', '', Uu'Female genital mutilation/ cutting (%)+\ 
Nn2002\u20132012*',，'',，'',，'','', '', U'Justification of wife beating (%)\n 2005\ 
U20132012*',，'', '', '', U'Violent discipline 9 I 


1 1 区 1 11 1 11 1 1 1 1 1 i | 
3 了 3 3 3» » 3 3 了 了 3» 





现在 我 们 能 够 查看 每 一 行 的 内 容 ， 我 们 需要 从 中 提取 出 需要 的 信息 。 为 了 确定 需要 哪些 信 
息 ， 以 及 如 何 获取 这 些 信 息 ， 更 简单 的 做 法 是 用 Excel 程序 打开 该 文件 ， 比 如 Windows 上 
的 Microsoft Excel 或 Mac 上 的 Numbers。 打 开工 作 禾 的 第 二 个 标签 ， 你 会 看 到 好 多 标题 行 。 


我 们 代码 的 目的 是 抓 取 英 文 文本 。 但 如 果 你 想 挑战 一 下 自己 ， 可 以 尝试 提取 
法 语 或 西班牙 语 的 标题 和 国家 。 








在 第 二 个 标签 里 ， 看 一 下 你 能 提取 哪些 信息 ， 并 思考 一 下 如 何 优化 组 织 这 些 信息 。 我 们 这 
里 提供 一 种 可 行 的 方法 ， 但 还 有 很 多 其 他 方法 ， 用 到 了 不 同 的 数据 结构 。 


对 于 本 次 练习 来 说 ， 我 们 要 提取 的 是 童工 和 童 婚 的 统计 数据 。 下 面 是 组 织 数据 的 一 种 方 
百 面 将 以 此 例 作 为 目标 ; 









































u'Afghanistan': { 

'child_labor': { 
'female': [9.6, ''], © 
'male': [11.0, ''], 
totat's [i103 下 > 

'child _ marriage': { 
'married_by_15': [15.0, ''], 
'married_by_18': [40.4, ''] 
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u'Albania': { 

'child_ labor': { 
'female': [9.4, u' ']，, 
'male': [14.4, u' '], 
'total': [12.0, u' ']}, 

'child marriage': { 
'married_by_15': [0.2，' ']， 
"married_by 18': [9.6, ''] 


}， 
@ 如 果 你 查看 Excel 中 的 数据 ， 有 些 数字 可 能 不 太一 样 。 这 是 因为 Excel 常常 会 将 数字 四 
舍 五 入 。 我 们 这 里 给 出 的 数字 就 是 你 用 Python 解析 时 会 得 到 的 数字 。 


在 开始 写 代 码 时 ， 提 前 想 好 输出 格式 的 样子 ， 并 写 出 一 个 这 样 的 数据 实例 ， 
可 以 节省 很 多 时 间 。 一 旦 确定 了 你 想 要 的 数据 格式 ， 你 可 以 问 问 自 己 :“ 下 
一 步 我 要 怎么 做 才能 实现 目标 ? ” 当 你 不 知道 下 一 步 怎 么 做 时 ， 这 种 方法 特 
别 有 用 。 









































我 们 将 使 用 两 种 Python 结构 来 提取 数据 。 用 到 的 第 一 个 方法 是 谋 套 for 循环 ， 就 是 在 把 一 
个 for 循环 放 到 另 一 个 for 循环 里 。 如 果 你 有 x 行 数据 ， 每 行 包含 y 个 元 素 ， 经 常会 用 到 
这 种 方法 。 想 要 访问 每 一 个 元 素 ， 你 需要 一 个 for 循环 遍历 每 一 行 ， 然 后 另 一 个 for 循环 
遍历 每 一 个 元 素 。 我 们 在 第 3 章 的 例子 中 也 用 过 租 套 for 循环 。 

我 们 将 使 用 艇 套 for 循环 来 输出 每 一 行 的 每 一 个 单元 格 。 这 将 会 输出 我 们 之 前 见 过 的 元 
素 ， 之 前 每 一 行 是 以 列表 的 形式 出 现 。 


for i in xrange(sheet.nrows) : 








row = sheet.row_values(i) 0 
for cell in row: © 
print cell 【3) 


@ 将 每 一 行内 容 组 成 的 列表 保存 到 row 变量 中 。 这 提高 了 代码 的 可 读 性 。 

@ 遍历 列表 中 的 每 一 个 元 素 ， 也 就 是 当前 行 的 每 一 个 单元 格 。 

人 @ 输出 单元 格 的 值 。 

运行 包含 肯 套 for 循环 的 完整 代码 ， 你 会 发 现 输出 不 再 那么 有 用 了 。 这 时 我 们 要 用 第 二 种 
方法 来 探索 Excel 文件 计数 器 。 














什么 是 计数 器 
计数 器 是 一 种 控制 程序 流 的 方法 。 有 了 计数 器 ， 你 可 以 在 for 循环 中 添加 一 条 if 语 向 
来 控制 for 循环 ， 每 次 选 代 后 计数 增加 。 如 果 计 数 超过 了 你 的 设 定 值 ，for 循环 将 不 
再 运行 if 语句 中 的 代码 。 在 Python 解释 器 中 试 试 下 面 的 例子 : 





Count = 0 


for i in range(1000) : 
if count < 10: 
print i 
count += 1 


© © OO © 


print 'Count: ', count 


@ 将 变量 count 初始 值 设 为 0。 

@ 创建 一 个 循环 ， 循 环 范围 是 从 0 到 999。 

@ 测试 计数 是 否 小 于 10， 如 果 是 的 话 ， 输 出 1。 

@ 增加 count 的 值 ， 这 样 计数 会 随 着 循环 次 数 增加 而 增加 。 
回 输出 最 终 计 数 。 














在 我 们 的 代码 中 添加 一 个 计数 器 ， 这 样 就 可 以 逐 项 查看 每 一 行 和 每 一 个 单元 格 ， 找 出 我 们 
需要 提取 的 内 容 。 一 定 要 注意 计数 器 在 代码 中 的 位 置 一 一 放 在 单元 格 的 循环 里 或 者 放 在 行 
的 循环 里 ， 结 果 可 能 会 大 不 相同 。 

修改 for 循环 的 代码 如 下 : 


count = 0 
for 1 in xrange(sheet.nrows): 
if count < 10: 
row = sheet.row_values(i) 
print i, row 











Count += 1 
@ 输出 行 编号 i 和 对 应 行 的 内 容 ， 这 样 我 们 可 以 看 到 每 一 行 包含 的 信息 。 
现在 回头 看 一 下 我 们 期 望 的 最 终 输 出 格式 ， 我 们 真正 要 搞 清楚 的 是 国家 名 字 是 从 哪 行 开始 
的 。 要 记 住 ， 国 家 名 字 是 最 终 输 出 字典 的 第 一 个 键 : 














u'Afghanistan': {...}, 
u'Albania': {...}, 


} 
上 面 脚本 中 含有 计数 器， 并 且 控 制 语句 是 count < 10， 运 行 后 你 会 发 现 ， 输 出 中 并 没有 包 
含 国家 名 字 出 现 的 那 一行 。 
要 跳 过 儿 行 才能 找到 感 兴趣 的 数据 ， 所 以 我 们 要 想 办 法 确定 从 哪 一 行 开始 采集 数据 。 在 上 
面 的 例子 中 ， 我 们 知道 国家 名 字 开 始 的 行 编 号 大 于 10。 但 怎么 能 知道 具体 是 从 哪 一 行 开 始 
的 呢 ? 
答案 就 在 下 一 个 代码 示例 中 ， 但 在 你 看 答案 之 前 ， 试 着 自己 修改 计数 器 ， 找 到 国家 名 字 开 
始 的 那 一 行 。( 有 许多 种 方法 都 可 以 找到 ， 所 以 即使 你 的 答案 与 下 面 的 代码 示例 稍 有 不 同 ， 
也 是 可 以 的 。) 
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找到 了 正确 的 行 编 号 ， 你 需要 在 那 一 行 后 面 添 加 一 条 if 语句 ， 开 始 提取 该 行 的 内 容 。 我 
们 只 处 理 那 一 行 之 后 的 数据 。 


如 果 你 找到 了 正确 的 行 编写， 代码 应 该 是 像 这 样 的 : 


count = 0 























for i in xrange(sheet.nrows): 
if count < 20: 
if i >= 14: 
row = sheet.row_values(i) 
print i, row 
count += 1 


@ 这 一 行 代码 遍历 前 20 行内 容 ， 找 到 国家 名 字 开 始 出 现 的 那 一 行 。 
@ if 语句 的 作用 是 ， 从 国家 名 字 出 现 的 那 一 行 开始 输出 每 行 的 内 容 。 
现在 你 的 输出 应 该 是 像 这 样 的 : 


14 ['', u'Afghanistan', u'Afghanistan', u'Afganist\xein', 10.3, '', 11.0, '', 9.6, 
,5.0 "5 40 "sy B74 "5 WU N2013', ""; UY N2013 "*, VU N02013 "3 "3 UN 
WOL3 O02, ss Td i TB, Thy 
15 ['', u'Albania', u'Albanie', u'Albania', 12.0, u' ', 14.4, u' ', 9.4, 

'', 0.2, '', 9.6, '', 98.6, '', Uy'\y2013', '', u'\y2013', '', yu'\u2013', '', 
36.4， 8 J 5d Ss Toa3 0 Ted 0 Do 人 es 2 ee Wi E 11 


11 11 二 和 “可 
3 请 3» 


© 











家 | [ | 11 
3 3 了 3 了 


16 ['', u'Algeria', yu'Alg\xe9rie', uy'Argelia’', 4.7, U'y', 5.5, U'y', 3.9, U'y', 
0.1, '', 1.8, '', 99.3, '', Uy'\y2013', '', yu'\u2013', '', yu'\u2013', '', u'\y2013', 
'', 67.9, '', 87.7, '', 88.8, '', 86.50 
:| 





下 面 要 把 每 一 行 转换 成 字典 格式 。 这 样 一 来 ， 在 后 续 章 市 我 们 想 要 对 数据 进行 其 他 操作 
时 ， 数 据 将 更 有 意义 。 

回头 看 一 下 前 面 我 们 期 望 的 输出 格式 示例 。 我 们 想 要 的 是 一 个 字典 ， 用 国家 作为 键 。 我 们 
用 索引 将 国家 名 字 提 取出 来 。 














什么 是 索引 
回想 第 3 章 学 过 的 内 容 ， 索 引 是 从 一 系列 对 象 (比如 列表 ) 中 提取 元 素 的 方法 。 对 于 
要 解析 的 Excel 文件 来 说 ， 我 们 把 车 传 入 sheet.row_values()，row_values 方法 以 站 作 
为 索引 。 我 们 在 Python 解释 器 里 练习 一 下 索引 。 
创建 一 个 列表 实例 : 
x= ['cat', 'dog', 'fish', 'monkey', 'snake'] 
想 要 提取 出 第 二 个 元 素 ， 你 可 以 添加 一 个 索引 编号 来 指 代 这 个 元 素 ， 像 这 样 : 


>>>x[2] 
'fish' 
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如 果 这 不 是 你 预期 的 结果 ， 要 记 住 Python 的 索引 编号 是 从 0 开始 的 。 所 以 ， 如 果 想 提 
取 人 们 一 般 所 说 的 第 二 个 元 素 ， 我 们 要 用 数字 1: 

>>>x[1] 

'dog' 
你 还 可 以 用 负数 索引 : 


>>>x[-2] 
"monkey' 


正 数 索引 和 负数 索引 的 区 别 是 什么 ? 你 可 以 发 现 ， 正 数 索 引 是 从 前 向 后 数 ， 而 负数 索 
引 是 从 后 向 前 数 。 
切片 (slicing) 是 与 索引 相关 的 另 一 个 有 用 工具 。 切 片 可 以 从 一 个 列表 或 可 选 代 对 象 
中 “ 切 ” 出 一 部 分 来 。 比 如 : 

>>>x[1:4] 

['dog', 'fish', 'monkey'] 
注意 ,与 range 一 样 ， 切 片 操 作 从 第 一 个 数字 开始 ， 但 第 二 个 数字 的 意思 是 : “直到 这 
个 数 ， 但 并 不 包括 这 个 数 。 
如 果 你 没有 输入 第 一 个 数 或 最 后 一 个 数 ， 切 片 操 作 会 一 直到 头 或 一 直到 尾 。 下 面 给 了 
几 个 例子 : 

X[ 有 可 

['fish', 'monkey', 'snake'] 

x[-2:] 

['monkey', 'snake'] 

Xx[::2] 

['cat', 'dog'] 

Xx[#s2 

['cat', 'dog', 'fish'] 


其 他 可 选 代 对 象 的 切片 操作 与 列表 相同 。 

















我 们 在 代码 中 添加 一 个 字典 ， 然 后 提取 出 每 一 行 的 国家 名 字 ， 作 为 字典 的 键 。 
将 for 循环 的 代码 修改 如 下 : 


count = 0 


data = {} 0 


for i in xrange(sheet.nrows): 
if count < 10: 
if i >= 14: 
row = sheet.row_values(i) 


country = row[1] © 
data[country] = 人 © 
Count += 1 

print data @ 
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@ 创建 一 个 空 字典 来 保存 数据 。 

@ row[1] 提取 出 遍历 每 一 行 的 国家 名 字 。 

@ data[country] 将 国家 设 为 data 字典 的 键 ， 对 应 的 值 设 为 另 一 个 字典 ， 
要 将 数据 保存 在 这 个 字典 里 。 

@ 输出 data 字典 ， 我 们 可 以 看 到 里 面 的 内 容 。 


现在 你 的 输出 应 该 是 像 这 样 的 : 


{u'Afghanistan': {}, u'Albania': {}, u'Angola': {}, u'Algeria': {}, 
u'Andorra': {}, u'Austria’': {}, u'Australia': {}, u'Antigua and Barbuda': {}, 
u'Armenia': {}, u'Argentina': {}} 


现在 我 们 需要 将 每 一 行 其 他 的 值 与 工作 短 中 的 值 对 应 起 来 ， 然 后 保存 到 字典 中 。 

在 你 把 所 有 的 值 都 提取 出 来 ， 并 与 Excel 工作 表 中 的 值 对 比 时 ， 你 会 犯 许多 
错误 。 这 很 正常 ， 也 是 预料 之 中 的 事情 。 你 应 该 接受 这 个 过 程 ， 这 说 明 你 正 
在 一 步 步 解决 问题 。 











tH 





为 我 们 接 下 来 











我 们 首先 创建 一 个 空 的 数据 结构 ， 可 以 用 来 保存 数据 。 因 为 我 们 已 经 知道 数据 行 是 从 第 14 
行 开始 的 ， 所 以 可 以 删 掉 计数 器 。 我 们 知道 xrange 可 以 输入 起 点 和 终点 ， 所 以 可 以 从 14 
开始 计数 ， 直 到 文件 的 结尾 。 修 改 后 的 代码 如 下 : 


data = {} 








for i in xrange(14, sheet.nrows): 0 
row = sheet.row_values(i) 
country = row[1] 


data[country] = { 
'child_labor': { 
Otal [ls 
'male': []， 
'female': []， 


GoQ@ 


}, 

'child marriage': { 
'married_by_15': []， 
'married_by_18': []， 
} 

} 


print data['Afghanistan'] 日 


@ 我 们 可 以 删 掉 计数 器 相关 的 代码 ， 让 for 循环 从 工作 表 第 14 行 开 始 。 这 一 行 代码 从 1 
的 值 为 14 开始 循环 ， 所 以 我 们 自动 跳 过 数据 集中 不 需要 的 那些 行 。 

四 这 一 行 代码 将 字典 扩展 成 很 多 行 ， 可 以 填 和 人 其 他 数据 点 。 

四 这 一 行 代码 创建 了 chiLd_Labor 键 ， 并 把 它 的 值 设 为 另 一 个 字典 。 

@ 这 个 字典 又 包含 了 几 个 字典 ， 字 典 的 键 是 字符 串 ， 说 明了 保存 的 数据 内 容 。 每 一 个 键 对 
应 的 值 都 是 列表 。 

@ 输出 与 Afghanistan 键 对 应 的 值 。 
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Afghanistan 的 输出 数据 是 像 这 样 的 : 


'child labor': {'total': [], 'male': [], 'female': []}, 
'child_marriage': {'married_ by_18': [], 'married_by_15': []} 
} 


现在 我 们 来 填 和 数据。 因为 我 们 用 索引 访问 每 一 行 的 每 一 列 ， 所 以 可 以 将 工作 表 的 值 填 和 人 
这 些 列 表 中 。 观 察 工 作 表 ， 弄 清楚 哪 一 列 对 应 的 是 哪 一 部 分 数据 ， 我 们 可 以 把 data 字典 修 
改 成 这 样 : 
data[country] = { 
'child_labor': { 

'total': [row[4], row[5]], 0 

'male': [row[6], row[7]], 

'female': [row[8], row[9]], 





]， 
'child marriage': { 
'married_by_15': [row[10], row[11]], 
'married_by_18': [row[12], row[13]], 
} 
} 


@ 每 一 列 包 含 两 个 单元 格 ， 所 以 我 们 的 代码 把 两 个 值 都 保存 下 来 。 这 一 行 代码 中 童工 总 数 
是 第 5 列 和 第 6 列 ， 而 我 们 知道 Python 从 0 开始 索引 ， 所 以 索引 编号 是 4 和 5。 
重新 运行 代码 ， 我 们 会 得 到 类 似 这 样 的 输出 : 
'child_labor': {'female': [9.6, ''], 'male': [11.0, ''], 'total': [10.3, '']}, 


'child marriage': {'married_ by_15': [15.0, ''], 'married_by_18': [40.4, '']}} 
} 

















在 继续 学 习 后 面 的 内 容 之 前 ， 输 出 几 条 数据 记录 ， 检 查 字 典 中 的 数据 是 否 正 
确 。 有 时 一 个 索引 错 了 ， 剩 下 的 数据 就 全 都 错 了 。 








化 的 数据 : 
import pprint 0 
pprint.pprint(data) @ 
@ 导入 pprint 库 。import 语句 一 般 出 现在 文件 开头 ， 但 为 了 简单 起 见 ， 我 们 把 它 放 在 这 
里 。 后 面 你 可 以 把 这 几 行 删 掉 ， 因 为 它们 不 会 影响 脚本 的 运行 。 
@ 将 data 传 入 pprint.pprint() 函数 。 
滚动 查看 输出 的 内 容 ， 你 会 发 现 大 部 分 内 容 看 起 来 都 很 好 ， 但 有 几 条 记录 看 起 来 出 了 问题 。 


查看 工作 表 的 内 容 ， 你 应 该 会 注意 到 ， 国 家 的 最 后 一 行 是 津巴布韦 〈Zimbabwe)。 所 以 我 
们 要 找到 国家 名 字 是 "zinbabwe ' 的 那 一 行 ， 然 后 退出 循环 。 我 们 在 代码 中 添加 break 来 退 
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出 循环 ， 这 样 就 完全 退出 了 for 循环 ， 继 续 执 行 下 面 的 脚本 。 我 们 来 添加 break 停止 循环 。 
在 for 循环 的 结尾 ， 添 加 下 列 代码 ， 然 后 重新 运行 : 














if country == 'Zimbabwe': © 
break 
@ 如 果 国 家 名 字 是 津巴布韦 的 话 …… 
名 退出 for 循环 。 


添加 了 break 之后， 你 有 没有 得 到 NameError: name 'country' is not 
defined 的 错误 信息 ? 如果 有 的 话 ， 检 查 一 下 代码 缩 进 。for 循环 中 的 话语 
名 要 缩 进 四 个 空格 。 








逐步 运行 代码 可 以 帮 你 发 现 问 题 所 在 。 如 果 你 想 知道 for 循环 中 某 个 变量 的 
值 ， 比 如 country， 可 以 在 for 循环 中 添加 print 语句 ， 在 脚本 报错 退出 之 前 
查看 变量 的 值 。 这 样 你 可 能 会 发 现 出 错 的 地 方 在 哪里 。 








现在 脚本 的 输出 与 我 们 的 最 终 目 标 是 一 致 的 。 我 们 要 做 的 最 后 一 件 事 
一 些 注释 。 





青 ， 是 在 脚本 中 添加 





注释 
在 代码 中 添加 注释 ， 可 以 让 你 (或 其 他 人 ) 在 以 后 能 够 理解 代码 的 含义 。 添 加 注释 的 
方法 是 在 注释 前 加 一 个 # 号 : 
# 这 是 Python 注 释 ,Python 会 忽略 该 行 。 


添加 多 行 注释 的 格式 如 下 : 


这 是 多 行 注释 的 格式 。 

如 果 你 的 注释 很 长 或 者 

你 想 插入 一 段 较 长 的 描述 ， 
你 应 该 使 用 这 种 类 型 的 注释 。 











你 的 脚本 现在 应 该 是 这 样 的 : 


这 是 用 来 分 析 童 工 和 童 婚 数据 的 脚本 。 
本 脚本 中 用 到 的 Excet 文 件 可 以 在 以 下 链接 中 获取 : 
http://www.unicef .org/sowc2014/numbers/ 





import xlrd 
book = xlrd.open_workbook('SOWC 2014 Stat Tables_Table 9.xlsx') 


sheet = book.sheet by _name('Table 9 ') 
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data = {} 
for i. in xrange(14, sheet.nrows): 


# 从 第 14 行 开始 ,因为 这 是 国家 数据 的 起 点 。 名 











row = sheet.row_values(i) 
country = row[1] 


data[country] = { 

'child_ labor': { 
'total': [row[4], row[5]], 
'male': [row[6], row[7]], 
'female': [row[8], row[9]], 

js 

'child _ marriage': { 
'married_by_15': [row[10], row[11]], 
'married_by_18': [row[12], row[13]], 


} 

上 

if country == "Zimbabwe ' : 
break 


import pprint 
pprint.pprint(data) © 
@ 多 行 注释 ， 大 致 说 明 脚 本 的 用 途 。 
如 单行 注释 ， 说 明 我 们 为 什么 从 第 14 行 开 始 ， 而 不 是 从 前 面 开 始 。 
@ 从 简单 的 数据 解析 过 渡 到 数据 分 析 工 作 时 ， 我 们 可 以 也 应 该 删除 这 两 行 。 
现在 我 们 的 输出 应 该 和 上 一 章 的 数据 差不多 。 在 下 一 章 里 ， 我 们 进一步 将 相同 的 数据 从 
PDF 文件 中 解析 出 来 。 


4.4 ”小 结 


Excel 格式 是 介 于 机 器 可 读 与 人 工 可 读 之 间 的 奇怪 格式 ， 在 一 定 程度 上 是 机 器 可 读 的 。 
Excel 文件 本 来 不 是 用 程序 来 读 取 的 ， 但 可 以 被 程序 解析 。 

为 了 处 理 这 种 非 标 准 格 式 ， 我 们 需要 安装 外 部 库 。 寻 找 外 部 库 有 两 种 方法 : 一 种 方法 是 搜 
索 PyPI 网 站 (https://pypi.python.org/pypi，Python 包 索 引 ) ; 另 一 种 方法 是 搜索 教程 和 和 入 
门 指南 ， 看 一 下 其 他 人 的 做 法 。 

找到 了 需要 安装 的 库 ， 可 以 使 用 pip install 命令 来 安装 ; 想 要 印 载 Python 库 ， 可 以 使 用 
pip uninstall 命令 。 

除了 学 习 如 何 用 xlrd 库 解 析 Excel 文件 之 外 ， 我 们 还 学 习 了 几 个 Python 编程 新 概念 ， 
4-1 对 这 些 新 概念 做 了 汇总 。 
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表 4-1: Python 编程 新 概念 
概念 


作用 





range 和 xrange (https://docs.python.org/2/library/ 


functions.html#range) 


从 0 开始 计数 ， 而 不 是 1 


索引 和 切片 (http://pythoncentral.io/cutting-and- 
slicing-strings-in-python/) 


计数 器 

磐 套 for 循环 
pprint 

break 

注释 


将 一 个 数字 转换 成 连续 数字 组 成 的 列表 。 例 如 : 
range(3) 输出 的 是 [6，1，2] 

这 是 需要 注意 的 计算 机 构造 原理 (computer 
construct)， 所 有 编程 都 是 这 样 的 。 在 使 用 range、 
索引 或 切片 时 一 定 注意 这 一 点 

用 来 提取 一 个 字符 串 或 列表 的 特定 子 集 




















用 来 控制 for 循环 的 工具 
用 于 遍历 数据 结构 中 的 数据 结构 ， 例 如 由 列表 组 成 
的 列表 、 由 字典 组 成 的 列表 或 者 由 字典 组 成 的 字典 
pprint 可 以 在 终端 中 美化 输出 数据 。 在 编程 处 理 复 
杂 的 数据 结构 时 ， 这 个 函数 很 好 用 

利用 break 可 以 提前 退出 for 循环 ， 它 可 以 结束 循 
环 ， 继 续 执 行 后 面 的 脚本 
在 所 有 代码 中 添加 注释 是 很 重 
参考 的 时 候 能 够 理解 代码 的 含 














































































































要 的 ， 这 样 你 在 以 后 
义 


随 着 继续 深入 学 习 处 理 PDF 文件 ， 为 了 回答 你 要 研究 的 问题 ， 要 学 会 寻找 数据 的 其 他 格 
式 ， 或 者 使 用 其 他 寻找 数据 的 方法 ， 这 一 点 是 很 重要 的 。 








第 5 章 
处 理 PDF 文 件 ， 以 及 用 
Python 解决 问题 














只 发 布 PDF 格式 的 数据 是 十 分 错误 的 ， 但 有 时 你 也 没有 其 他 选择 。 本 章 你 将 学 习 如 何 解析 
PDF， 在 学 习 过 程 中 ， 你 还 会 学 习 如 何 解决 在 代码 中 遇 到 的 错误 。 

我 们 还 会 讲 到 如 何 编写 脚本 ， 从 一 些 基本 概念 〈 例 如 导入 模块 ) 讲 起 ， 逐 步 过 渡 到 一 些 更 
复杂 的 内 容 。 学 完 本 章 ， 你 将 学 会 在 代码 中 思考 问题 与 解决 问题 的 许多 方法 。 


5.1 尽量 不 要 用 PDF 


本 章 用 到 的 数据 与 上 一 章 相同 ， 只 不 过 是 PDF 格式 的 。 一 般 来 说 ， 我 们 不 会 去 寻找 难以 解 

析 的 数据 格式 ， 但 我 们 在 本 书 中 之 所 以 这 么 做 ， 是 因为 你 要 处 理 的 数据 可 能 并 不 总 是 理想 

中 的 格式 。 你 可 以 在 本 书 的 GitHub 仓库 (https://github.com/jackiekazil/data-wrangling) 中 

找到 本 章 所 用 的 PDF 文件 。 

在 开始 解析 PDF 数据 之 前 ， 你 需要 考虑 以 下 儿 件 事情 。 

。 你 是 否 尝试 寻找 其 他 格式 的 数据 ?如 果 在 网 上 找 不 到 ， 试 试 打 电话 ( 见 6.4.1 节 ) 或 发 
邮件 求助 。 

。 你 是 否 尝试 过 从 文档 中 直接 复制 粘贴 数据 ? 有 时 你 可 以 很 方便 地 在 PDF 文件 里 选择 并 
复制 数据 ， 然 后 粘贴 到 电子 表格 中 。 但 这 种 做 法 不 一 定 每 次 都 能 奏效 ， 而 且 也 无 法 规模 
化 (如果 有 大 量 文件 或 页 面 ， 你 就 没 法 快速 完成 了 )。 

如 果 你 不 得 不 处 理 PDF 文件 的 话 ， 需 要 学 习 如 何 用 Python 解析 其 中 的 数据 。 我 们 来 开始 学 习 。 
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5.2 解析 PDF 的 编程 方法 


处 理 PDF 要 比 Excel 文件 更 加 困难 ， 因 为 每 一 个 PDF 文件 的 格式 都 不 可 预知 。( 如 果 你 有 
一 系列 PDF 文件， 那么 就 可 以 对 文件 进行 解析 了 ， 因 为 这 些 文档 的 格式 很 可 能 是 一 致 的 。) 
PDF 工具 处 理 文档 的 方法 有 很 多 种 ， 其 中 一 种 方法 是 将 PDF 转换 成 文本 。 在 我 们 写作 本 
书 的 同时 ，Danielle Cervantes 在 NICAR 上 做 了 一 个 关于 PDF 工具 的 演讲 ，NICAR 是 一 个 
针对 记者 的 listserv' 。 这 个 演讲 汇总 了 下 列 PDF 解析 工具 : 

。 ABBYY’s Transformer 

。 Able2ExtractPro 

。 Acrobat Professional 

。 Adobe Reader 

。 Apache Tika 

。 Cogniview’s PDF to Excel 





。 CometDocs 
。 Docsplit 

。 Nitro Pro 

。 PDF XChange Viewer 
。 pdfminer 

。 pdftk 

。 pdftotext 
。 Poppler 

。 Tabula 

。 Tesseract 

。 xPDF 

。 Zamzar 


除了 上 面 这 些 工 具 ， 你 还 可 以 用 许多 编程 语言 来 解析 PDF， 其 中 包括 Python。 


仅 因为 你 知道 类 似 Python 这 样 的 工具 ， 并 不 意味 着 它 总 是 解决 问题 的 最 佳 工 
具 。 考 虑 到 可 用 的 工具 有 很 多 种 ， 你 可 能 会 发 现 用 另 一 个 工具 来 完成 部 分 任 
务 (比如 数据 提取 ) 更 加 容易 。 保 持 开放 的 心态 ， 事 先 对 各 种 可 用 的 工具 进 
行 调研 。 





























在 4.1 节 中 提 到 过 ，PyPI 网 站 是 查找 Python 包 的 好 地 方 。 如 果 搜 索 “PDF” (https://pypi. 
python.org/pypi?:action=search&term=pdf&submit=search) ， 你 会 得 到 一 堆 结果 ， 类 似 图 5-1 
给 出 的 那些 。 

















注 1: listserv 是 一 个 用 来 管理 电子 邮件 列表 的 软件 。 一 一 译 者 注 
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Package Weight* Description 


PDF 1.0 11 PDF toolkit 

PDFTron-PDFNet-SDK-for-Python 5.7 11 Atop notch PDF library for PDF rendering, conversion, content extraction, etc 

agenda2pdf 1.0 9 Simple script which generates a book agenda file in PDF format, ready to be printed or 
to be loaded on a ebook reader 

aws.pdfbook 1.1 9 Download Plone content views as PDF 

buzzweb2pdf 0.1 9 An Open Source tool to convert HTML documentation with an index page into a single 
RBF 

ckanext-pdfview 0.0.1 9 View plugin for rendering PDFs on the browser 

cmsplugin-pdf 0.5.1 9 A reusable Django app to add PDFs to Django-CMS. 

collective.pdfjs 0.4.3 9 pdfjs integration for Plone 

collective.pdfLeadlmage 0.2 9 Automatically creates contentleadimage from pdf cover 

collective.pdfpeek 2.0.0 9 A Plone 4 product that generates image thumbnail previews of PDF files stored on 
ATFile based objects. 

collective.sendaspdf 2.10 9 An open source product for Plone to download or email a page seen by the user as a 
PDF file. 

django-easy-pdf 0.1.0 9 Django PDF views, the easy way 











图 5-1: PyPI 网 站 上 的 PDF 包 


浏览 这 些 Python 包 ， 了 解 一 下 每 个 库 的 详细 信息 ， 但 分 辨 不 出 哪 一 个 库 是 解析 PDF 的 最 
佳 选择 。 如 果 你 尝试 更 多 的 搜索 ， 比 如 “parse pdf” (解析 pdf) ， 会 出 现 更 多 的 库 供 你 选 
择 ， 但 还 是 没有 明显 的 最 佳 选 择 (搜索 结果 见 https://pypi.python.org/pypi?:action=search&zte 
Im=parse+pdf&submit=searcn) 。 所 以 我 们 用 搜索 引擎 查看 一 下 大 家 都 在 用 什么 库 来 解析 PDF。 


在 搜索 库 或 者 答案 时 ， 注 意 观察 你 找到 资料 的 发 布 日 期 。 帖 子 或 问题 的 年 代 
越久 远 ， 它 过 时 且 不 再 适用 的 可 能 性 就 越 大 。 先 试 着 将 搜索 范围 限定 在 过 去 
的 两 年 内 ， 然 后 仅 在 需要 时 再 扩大 搜索 的 时 间 范 围 。 









































在 阅读 了 许多 教程 、 文 档 、 博 客 文 章 和 几 篇 有 用 的 文章 〈 例 如 这 一 篇 : http://www.binpress. 
com/tutorial/manipulating-pdfs-with-python/167) 之 后 ， 我 们 决定 使 用 sLate 库 (https://pypi. 
python.org/pypi/slate ) 。 


stlate 能 够 满足 我 们 的 需求 ， 但 并 非 总 是 如 此 。 放 弃 并 从 头 开始 也 是 可 以 的 。 
如 果 有 很 多 库 可 供 选 择 的话 ， 选 择 你 认为 最 合适 的 那 一 个 ， 即 使 有 人 告诉 你 
它 不 是 “最 好 的 ”工具 。 究 竟 哪 一 个 工具 最 好 ， 大 家 见仁见智 。 在 你 学 习 编 
程 的 过 程 中 ,“ 最 好 的 ”工具 就 是 你 赁 直觉 选择 的 那 一 个 。 





























5.2.1 利用 slate 库 打开 并 读 取 PDF 
我 们 决定 用 slate 库 来 解决 这 个 问题 ， 下 面 我 们 来 安装 这 个 库 。 在 命令 行 中 运行 : 
pip install slate 


现在 你 已 经 安装 了 slate， 你 可 以 创建 一 个 名 为 parse_pdf.py 的 脚本 ， 将 下 面 的 代码 保存 其 
中 。 一 定 要 确保 脚本 文件 和 PDF 文件 位 于 同一 文件 夹 下 ， 或 者 修改 代码 中 的 文件 路 径 。 这 
段 代 码 会 打印 出 文件 的 前 两 行内 容 : 


import slate 0 












































pdf = 'EN-FINAL Table 9.pdf' @ 
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with open(pdf) as f: 
doc = slate.PDF(f) 


GO 


for page in doc[:2]: 日 
print page 

@ 导入 slate 库 。 
@ 创建 字符 串 变 量 ， 用 于 保存 文件 路 径 ， 一 定 要 确保 空格 和 大 小 写 都 正确 。 
@ 将 文件 名 字符 串 传 人 Python 的 open 函数 ， 这 样 Python 就 可 以 打开 该 文件 。Python 将 打 
开 的 文件 保存 为 变量 f。 
@ 将 打开 的 文件 f 传递 给 slate.PDF(f)，slate 可 以 将 PDF 文件 解析 成 可 用 的 格式 。 
加 遍历 文档 doc 的 前 两 页 并 和 输出， 这 样 我 们 可 以 知道 程序 运行 正常 。 
通常 来 说 ，pip 会 安装 所 有 必需 的 依赖 库 ， 但 需要 包 管 理 器 列 出 这 些 依赖 库 。 
在 使 用 sLate 库 或 其 他 库 时 ， 如 果 你 得 到 ImportError， 你 应 该 仔细 阅读 下 一 
行 错误 信息 ， 看 一 下 哪个 库 没 有 安装 。 运 行 代码 时 如 果 得 到 如 下 错误 信息 : 
ImportError: No module named pdfminer.pdfparser， 说 明 安 装 slate 时 没有 
正确 安装 pdfminer， 即 使 它 是 必需 的 库 。 你 需要 运行 pip install --upgrade 
--ignoreinstalled slate==0.3 pdfminer==20110515 来 安装 pdfminer (参见 
slate 仓库 的 这 个 issue，https://github.com/timClicks/slate/issues/5 ) 。 





















































运行 脚本 ， 然 后 将 输出 内 容 与 PDF 中 的 内 容 对 比 一 下 。 

















下 面 是 第 一 页 的 内 容 : 
TABLE 9Afghanistan 10 11 10 15 40 37 - - - - 90 74 75 74Albania 
12 14 9 0 10 99 - - - 36 30 75 78 7iAlgeria Sy6y4y0 2 99 
- - - - 68 88 89 87Andorra - - - - - i100v- - - - - - - 
-Angola 24 x 22 x 25x- - 36x- - - - - - - -Antigua and Barbuda 
三 = 三 - - - - - - - - - - -Argentina7y8y5y- - 99y 
- - - - - - - -Arnenia 4 5 3 0 7 100 - - - 20 9 70 72 
67Australia - - - - - i100v- - - - - - - -Austria- - 

村 - - 10v- - - - - - - -Azerbaijan 7y8yS5y1 12 94 - - 

- 58 49 75 79 71Bahamas - 三 = 3 

-Bahrain 5x6x3x- - - - - - - - - - -Bangladesh 13 18 

8 29 65 31 - - - - 33y- - -Barbados - - - - - - - - 

- - - - - -Belarus 1 1 2 0 3 100 y- - - 4 4 65y67y 62 

yBelgium - - - - - i100v- - - - - - - -Belize 6 7 5 

3 26 95 - - - - 9 71 71 70Benin 46 47 45 8 34 80 13 2y 

1 14 47 - - -Bhutan 3 3 3 6 26 100 - - - - 68 - - -Bolivia ( 

Plurinational State of) 26 y 28y24y3 22 76y- - - - 16 - - 

-Bosnia and Herzegovina 5 7 4 0 4 100 - - - 6 5 55 60 

50Botswana 9y1lly7y- - 72 - - - - - - - -BrazilL9y11l1y6y 

11 36 93y- - - - - - - -Brunei Darussalam - - - - - - - 

- - - - - - -Bulgaria- - - = rs. “00 Ys :ES 

-Burkina Faso 39 42 36 10 52 77 76 13 9 34 44 83 84 82Burundi 

26 26 27 3 20 75 - - - 44 73 - - -Cabo Verde 3 x,y 4 x,y 3 

x,y 3 18 91 - - - 1i6y17 - - -Cambodia 36 y 36 y 36 y2 18 62 - 

- - 22y46y- - -Cameroon 42 43 40 13 38 61 1Yy7 39 

47 93 93 93Canada - - - - - 100v- - - - - - - -Central 
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African Republic 29 27 30 29 68 61 24 1 11 80y80 92 92 
92Chad 26 25 28 29 68 16 44 18y38 - 62 84 85 84Chile 3 x 3 


XE = “00 Y= = 二 后 三 = shinas 3 SS 学 和 汪 

- - - - -Colombia 13y17y9y6 23 97 - - - - - - - - Comoros 
27 X 26 X28 08 Xs Congo 25 24 25. 了 ,33 
91, 3 i ‘“s AG SS, = STABEED CHILD PROTECTIONCountries and 


areasChild labour (%)+ 2005-2012*Child marriage (%) 2005-2012*Birth 
registration (%)+ 2005-2012*totalFemale genital mutilation/cutting (%)+ 
2002-2012*Justification of wife beating (%) 2005-2012*Violent discipline (%)+ 
2005-2012*prevalenceattitudestotalmalefemalemarried by 15married by 
18womenagirLsbsupport for the practicecmalefemaletotalmalefemale78 THE 
STATE OF THE WORLD'S CHILDREN 2014 IN NUMBERS 


如 果 你 查看 一 下 PDF 文件 ， 很 容易 发 现 页 面 中 每 一 行 的 格式 。 我 们 来 看 一 下 page 的 数据 
类 型 是 什么 : 
for page in doc[:2]: 
print type(page) 0 


@ 将 代码 中 的 print page 修改 为 print type(page)。 
运行 代码 ， 输 出 如 下 : 


<type 'str'> 
<type 'str'> 


这 样 我 们 知道 state 中 的 page 是 一 个 长 字符 串 。 这 一 点 很 有 用 ， 因 为 现在 我 们 就 可 以 使 用 
字符 串 方法 〈 想 复习 字符 串 方 法 ， 可 以 回 看 第 2 章 )。 

总 的 来 说 ， 读 取 这 个 PDF 文件 并 不 难 。 由 于 这 个 文件 中 只 包含 表格 ， 几 乎 没有 任何 文本 ， 
slate 可 以 很 好 地 解析 。 在 某 些 情况 下 ， 表 格 被 包围 在 文本 中 ， 你 可 能 需要 跳 过 一 些 行 才 
能 获取 你 想 要 的 数据 。 如 果 你 需要 跳 过 一 些 行 的 话 ， 可 以 采用 上 一 章 Excel 例子 中 的 方法 ， 
创建 一 个 每 行 递增 的 计数 器 ， 用 来 找到 数据 所 在 的 位 置 ， 然 后 利用 4.3 证“ 什么 是 索引 ” 
中 的 方法 将 我 们 需要 的 数据 提取 出 来 。 


我 们 的 最 终 目 标 是 从 PDF 文件 中 提取 出 数据 ， 数 据 格式 与 Excel 文件 的 输出 格式 相同 。 想 
要 做 到 这 一 点 ， 我 们 需要 分 割 字 符 串 ， 找 出 每 一 行 的 内 容 。 甚 背后 的 思考 过 程 是 寻找 规 
律 ， 找 到 每 一 个 新 行 开始 的 标志 。 这 上 听 起 来 可 能 很 简单 ， 但 可 能 会 非常 复杂 。 

在 处 理 大 型 字符 串 时 ， 人 们 通常 会 使 用 正则 表达 式 〈RegEx)。 如 果 你 不 熟悉 正则 表达 式 和 
如 何 编写 正则 表达 式 的 话 ， 这 个 方法 有 点 困难 。 如 果 你 准备 挑战 一 下 自己 ， 想 学 习 Python 
中 正则 表达 式 的 更 多 内 容 ， 可 以 查看 7.2.6 节 。 对 于 我 们 的 目标 而 言 ， 我 们 将 采用 一 种 更 
简单 的 方法 来 提取 数据 。 


5.2.2 将 PDF 转 换 成 文本 

首先 我 们 希望 将 PDF 转换 成 文本 ， 然 后 再 对 文本 进行 解析 。 如 果 文 件 很 大 或 数量 很 多 ， 这 
种 方法 更 好 。( 使 用 stLate 库 的 话 ， 每 次 运行 脚本 都 要 对 PDF 进行 解析 。 如 果 文 件 很 大 或 
很 多 的 话 ， 这 种 方法 既 浪 费时 间 又 浪费 内 存 。) 
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我 们 要 用 pdfminer 将 PDF 转换 成 文本 。 首 先 安装 这 个 库 ， 


pip instaLL pdfminer 


安装 好 pdfminer， 你 就 可 以 使 用 一 个 叫 作 pdf2txt.py 的 命令 ， 将 PDF 文件 转换 成 文本 。 
现在 我 们 来 试 一 下 。 运 行 下 面 的 命令 ， 将 PDF 转换 成 同一 文件 夹 下 的 文本 文件 ， 这 样 所 有 
的 数据 都 在 同一 文件 夹 下 : 


pdf2txt.py -o en-final-table9.txt EN-FINAL\ Table\ 9.pdf 


第 一 个 参数 (-o en-final-table9.txt) 是 我 们 想 要 创建 的 文本 文件 。 第 二 个 参数 (EN- 
FINAL\ TABLE\ 9.pdf) 是 我 们 的 PDF 文件 。 确 保 大 小 写 和 文件 名 中 的 空格 正确 。 空 格 前 面 
需要 加 一 个 反 和 斜 线 (\)。 这 叫 转 义 (escaping)。 转 义 是 告诉 计算 机 ， 空 格 是 输入 内 容 的 一 
部 分 。 








利用 Tab 自动 补 全 
给 你 介绍 一 位 终端 里 的 新 朋友 : Tab 键 。 对 于 上 面 命令 的 第 二 个 参数 ， 你 可 以 先 输入 
EN， 然 后 按 两 下 Tab 键 。 如 果 只 有 一 种 备 选 的 话 ， 计 算 机 会 自动 补 全 文件 名 。 如 果 有 
多 种 备 选 ， 计 算 机 会 发 出 警告 音 ， 并 返回 一 系列 备 选 。 在 输入 又 长 又 奇怪 的 文件 夹 或 
文件 名 时 ， 这 种 方法 极为 有 用 。 


试 试 这 个 。 切 换 到 home 目录 (在 基于 Unix 的 系统 是 cd ~/， 在 Windows 上 是 
cd %cd%)。 现 在 ， 假 设 你 想 进 入 Documents 目录 。 试 着 输入 cd D， 然 后 按 两 下 Tab 
键 。 发 生 了 什么 ? home 目录 里 还 有 哪些 文件 或 文件 夹 以 字母 D 开 头 ? (可 能 是 
Downloads 文件 夹 ? ) 


现在 试 一 下 cd Doc， 然 后 按 两 下 Tab 键 。 你 应 该 会 看 到 自动 补 全 成 Documents 文件 
夹 。 











运行 完 这 个 命令 之 后 ， 我 们 创建 了 这 个 PDF 文件 的 文本 格式 文件 ， 叫 作 en-final-table9.txt。 
我 们 将 新 文件 读 入 Python。 创 建 一 个 新 脚本 ， 与 前 面 的 脚本 保存 在 同一 文件 夹 下 。 脚 本 名 
叫 作 parse_pdf_text.py， 或 者 你 认为 合适 的 其 他 名 字 。 在 脚本 中 写 入 下 列 代码 : 


pdf_txt = "en-finaL-tabLe9.txt' 
openfile = open(pdf_ txt, 'r') 




















for line in openfile: 
print line 


我 们 可 以 逐 行 读 取 文 本 ,然后 打印 出 每 一 行 ， 将 表格 内 容 以 文本 格式 呈现 。 


5.3 利用 pdfminer 解 析 PDF 


众所周知 ， 处 理 PDF 文件 十 分 困难 ， 我 们 将 学 习 如 何 解决 在 代码 中 遇 到 的 问题 ， 并 掌握 一 
些 解决 问题 的 基本 方法 。 


























我 们 希望 首先 采集 国家 名 称 ， 因 为 国家 名 称 是 最 终 数 据 集 的 键 。 打 开 文 本 文件 ， 你 会 发 现 
国家 出 现 之 前 有 8 行 。 第 8 行 的 内 容 是 and areas : 

















TABLE 9 CHILD PROTECTION 


5 
6 
6 Countries 
8 


and areas 
9 Afghanistan 
10 Albania 
11 Algeria 
12 Andorra 


浏览 一 下 整个 文本 文档 ， 你 会 发 现 相同 的 规律 。 因 此 ， 我 们 要 创建 一 个 开关 变量 ， 在 过 到 
and areas 这 一 行 时 控制 采集 过 程 的 开始 和 结束 。 
为 了 完成 这 个 任务 ， 我 们 需要 修改 for 循环 ， 添 加 一 个 布尔 变量 ， 即 True/False 变量 。 在 
过 到 and areas 那 一 行 时 将 布尔 变量 设置 为 True: 


country_line = False 0 
for line in openfile: 




















if line.startswith('and areas'): @ 
country_line = True 【3) 


@@ 将 country_line 设置 为 False， 因 为 默认 行 里 不 包含 国家 。 

如 搜索 以 and area 开头 的 行 。 

全 将 country_line 设置 为 True。 

我 们 要 解决 的 下 一 个 问题 是 何 时 将 布尔 变量 再 次 设置 为 Fatse。 花 点 时 间 查 看 文本 文件 ， 
试 着 找到 其 中 的 规律 。 你 怎么 能 知道 国家 列表 的 结尾 在 哪里 呢 ? 


观察 下 面 的 文本 片段 ， 你 会 注意 到 其 中 有 一 个 空 行 : 























45 China 

46 Colombia 
47 Comoros 
48 Congo 

49 

50 total 

54 10 

52 12 


但 Python 怎么 识别 空 行 呢 ?” 在 脚本 中 添加 一 行 代码 ， 打 印 出 每 一 行 的 Python 表示 (查阅 
7.2.2 节 ， 可 以 了 解 关 于 字符 串 格式 化 的 更 多 内 容 ) : 


country_line = False 
for line in openfile: 
if country_line: 0 
print '%r' % line © 
if line.startswith('and areas'): 
country_line = True 


@ 在 经 历 了 for 循环 的 前 一 次 迭代 后 ， 如 果 country_Line 的 值 为 True， 那 么 ……… 
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@…… 打印 出 该 行 的 Python 表示 。 
观察 输出 ， 你 会 注意 到 现在 所 有 行 的 结尾 都 多 出 一 些 字符 : 


45 'China \n' 
46 "CoLombia \n' 


47 'Comoros Nn' 
48 'Congo \n' 
49 "Nm 

50 "totaLNn' 

51 "10 ANn' 

52 '12 AN\n' 


\n 是 一 行 结束 的 标志 ， 或 者 叫 换 行 符 。 我 们 现在 用 它 作 为 修改 country_line 变量 的 标志 
(marker)。 如 果 country_Line 的 值 为 True， 而 Line 的 值 为 \n， 我 们 就 应 该 将 country_ 
Line 设置 为 False， 因 为 这 一 行 标志 着 国名 的 结束 : 


country_line = False 
for line in openfile: 
































if country_line: 0 
print line 


if line.startswith('and areas'): 
country_line = True 
elif country_line: 
if line == '\n': ©@ 
country_line = False 
@ 如 果 country_line 的 值 为 True， 打 印 出 该 行 ， 我 们 可 以 查看 国家 名 称 。 这 上 段 代码 在 前 ， 
是 因为 我 们 不 希望 它 出 现在 and areas 测试 的 后 面 。 我 们 只 想 打印 出 实际 的 国名 ， 而 不 
想 打 印 出 and areas 这 一 行 。 
@ 如 果 country_line 的 值 为 True， 且 Line 的 值 为 换行 符 ， 则 将 country_Line 设置 为 
False， 因 为 国家 列表 已 经 结束 了 。 


现在 运行 代码 ， 返 回 的 似乎 是 包含 国家 的 所 有 行 。 我 们 最 后 会 将 其 转换 成 国家 列表 。 现 
在 ， 对 于 我 们 想 要 采集 的 数据 ， 我 们 要 寻找 相应 的 标志 ， 然 后 重复 上 面 的 做 法 。 我 们 想 要 
的 是 童工 数据 和 童 婚 数据 。 首 先 来 看 童工 数据 ， 我 们 需要 总 数 、 男 童 数 和 女童 数 。 我 们 先 
来 看 总 数 。 

我 们 将 利用 相同 的 方法 找 出 童工 总 数 。 

(1) 创建 一 个 True/False 的 开关 变量 。 

(2) 寻找 开始 标志 ， 将 开关 变量 设置 为 真 。 

(3) 寻找 结束 标志 ， 将 开关 变量 设置 为 假 。 


查看 一 下 文本 ， 你 会 发 现 数据 的 开始 标志 是 total。 看 一 下 你 所 创建 文本 文件 的 第 50 行 ， 
这 里 出 现 了 第 一 个 标志 ”: 
























































注 2: 你 的 文本 编辑 器 很 可 能 可 以 选择 显示 行 编号 ， 甚 至 可 能 可 以 直接 “ 跳 转 ”到 某 一 行 。 可 以 用 谷歌 搜索 
一 下 这 些 功 能 的 使 用 方法 。 
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45 China 
46 Colombia 

















47 Comoros 
48 Congo 
49 
50 total 
51 10 
52 12 
结束 标志 还 是 换行 符 或 \n， 你 可 以 在 71 行 看 到 : 
68 6 
69 46 
70 3 
71 
72 26 y 
73 5 
我 们 将 这 个 逻辑 添加 到 代码 中 ， 然 后 用 print 查看 结果 : 
country_line = total_line = False 0 


for line in openfile: 


if country_line or total_line: ©@ 
print line 


if line.startswith('and areas'): 
country_line = True 
elif country_line: 
if line == '\n': 
country_line = False 


if line.startswith('total'): © 
total_line = True 
elif total_line: 
if Line == '\n': 
total_line = False 
@ 将 total_line 设置 为 False。 
@ 如 果 country_line 或 total_line 的 值 为 True， 输 出 该 行 的 内 容 ， 方 便 我 们 查看 数据 。 
四 找到 total_line 的 起 始点 ， 将 total_line 设置 为 True。 本 行 下 面 的 代码 与 前 面 
country_Line 的 代码 逻辑 相同 。 


现在 我 们 的 代码 有 一 些 元 余 。 我 们 在 重复 一 些 相同 的 代码 ， 只 是 开关 变量 有 所 不 同 。 这 就 
引出 了 如 何 创建 非 兄 余 代 码 的 话题 。 在 Python 中 ， 我 们 可 以 用 函数 来 执行 重复 操作 。 也 就 
是 说 ， 我 们 可 以 将 这 些 操作 放 到 一 个 函数 里 ， 然 后 调用 函数 执行 操作 ， 而 不 必 每 次 输入 全 
部 代码 手动 执行 这 些 操作 。 如 果 我 们 想 测试 PDF 的 每 一 行 ， 可 以 使 用 函数 。 























第 一 次 编写 函数 时 ， 往 往 不 清楚 应 该 将 函数 放 在 代码 的 什么 位 置 。 你 需要 先 
写 好 函数 的 代码 ， 然 后 再 调用 函数 。 这 样 Python 就 知道 函数 的 功能 是 什么 。 
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我 们 将 函数 命名 为 turn_on_off， 设 置 它 最 多 接收 4 个 参数 。 

。 Line 是 我 们 目前 所 在 的 行 。 

。 statue 是 一 个 布尔 变量 (True 或 FaLse) ， 代 表 国 数 的 开 或 关 。 

。 start 是 我 们 要 寻找 的 开始 标志 它 会 触发 开 或 True 状态 。 

。 end 是 我 们 要 寻找 的 结束 标志 一 一 它 会 触发 关 或 False 状态 。 

修改 代码 ， 将 函数 框架 添加 到 for 循环 之 前 。 不 要 忘记 添加 函数 功能 的 说 明 一 一 当日 后 查 
看 这 个 国 数 时 ， 你 不 会 一 头 雾 水 。 这 些 说 明文 字 叫 作文 档 字符 串 (docstring) : 








def turn_on_off(line, status, start, end='\n'): 0 
这 个 函数 用 于 检查 该 行 是否 以 特定 值 开 始 /结束 。 2) 








如 果 该 行 确实 以 特定 值 开始 /结束 , 则 状态 设 为 开 / 关 ( 真 / 假 )。 








return status © 


country_line = total_line = False 
for line in openfile: 


@ 本 行 代码 是 函数 的 开始 ， 函 数 最 多 接收 4 个 参数 。 前 三 个 参数 tne、status 和 start 是 
必需 (required) 参数 ， 也 就 是 说 ， 由 于 它们 没有 默认 值 ， 一 定 要 对 它们 赋值 。 最 后 一 
个 参数 end， 默 认 值 是 换行 符 ， 因 为 这 是 我 们 文件 的 规律 。 在 调用 函数 时 ， 我 们 可 以 传 
入 其 他 值 来 替换 默认 值 。 

@ 一 定 要 写 国 数 说 明 (或 文档 字符 串 )， 这 样 你 才能 清楚 它 的 功能 。 函 数 说 明 不 必 追 求 完 
美 ， 只 要 有 就 行 。 以 后 你 可 以 随时 更 新 。 

全 return 语句 是 退出 函数 的 正确 方法 。 这 个 函数 返回 的 是 status， 值 为 True 或 False。 











有 默认 值 的 参数 要 放 在 最 后 
在 编写 涵 数 时 ， 没 有 默认 值 的 参数 一 定 要 放 在 有 默认 值 的 参数 前 面 。 这 也 是 上 面 的 例 
子 中 end='\n' 是 最 后 一 个 参数 的 原因 。 我 们 可 以 看 到 ， 有 上 默认 值 的 参数 像 是 一 个 键 值 
对 ( 即 value_name=value)， = 后 面 即 为 默认 值 (在 上 面 的 例子 中 默认 值 为 \n) 。 


在 函数 被 调用 时 ，Python 会 计算 参数 的 值 。 如 果 我 们 想 调用 前 面 关 于 国家 的 子 数 ， 调 
用 方法 是 这 样 的 : 


turn_on_off(line, country_line, 'and areas') 

这 里 利用 了 end 的 默认 值 。 如 果 你 想 将 默认 值 替换 为 两 个 换行 符 ， 可 以 这 样 调用 : 
turn_on_off(line, country_line, 'and areas', end='\n\n') 

假设 我 们 将 status 的 默认 值 设 置 为 False。 我 们 要 如 何 修改 代码 ? 


这 是 修改 前 函数 的 第 一 行 : 








def turn_on_off(line, status, start, end='\n'): 





面 给 出 两 种 修改 方法 : 

def turn_on_off(line, start, end='\n', status=False): 

def turn_on_off(line, start, status=False, end='\n') 
status 参数 要 放 在 必需 参数 之 后 。 在 调用 新 函数 时 ， 我 们 可 以 使 用 end 和 status 的 默 
认 值 ， 也 可 以 用 其 他 值 替换 : 

turn_on_off(line, 'and areas') 

turn_on_off(line, 'and areas', end='\n\n', status=country_line) 
如 果 你 不 小 心 把 有 默认 值 的 参数 放 在 必需 参数 之 前 ，Python 会 报错 : SyntaxError: 
non-default argument follows default argument。 你 不 必 记 住 这 向 话 ， 但 要 注意 的 
是 ， 如 果 你 遇 到 这 个 错误 ， 要 知道 它 指 的 是 什么 意思 。 














现在 把 代码 从 for 循环 中 移 到 国 数 中 。 我 们 想 在 新 的 turn_on_off 国 数 中 复制 前 面 
country_line 的 逻辑 : 











def turn_on_off(line, status, start, end='\n'): 


这 个 函数 用 于 检查 该 行 是 否 以 特定 值 结束 。 
如 果 该 行 确实 以 特定 值 开 始 /结束 ， 由 区 




















if line.startswith(start): 0 
status = True 
elif status: 


if line == end: @ 
status = False 
return status @ 


@ 将 寻找 开始 行 的 标志 替换 为 start 变 
@ 将 我 们 用 的 结束 文字 替换 为 end 变 
@ 基于 相同 的 逻辑 ， 返 回 status 变量 nd 表示 False，start 表示 True)。 

现在 我 们 在 for 循环 中 调用 这 个 函数 ， 将 前 面 所 有 代码 放 在 一 起 之 后 ， 脚 本 是 这 个 样子 的 : 


pdf_txt = 'en-final-table9.txt' 
openfile = open(pdf_txt, "r") 


a 











def turn_on_off(line, status, start, end='\n'): 


这 个 函数 用 于 检查 该 行 是 否 以 特定 值 开始 /结束 。 
如 果 该 行 确实 以 特定 值 开始 /结束 , 则 状态 设 为 开 / 关 ( 真 / 假 )。 














if line.startswith(start): 
status = True 
elif status : 
if line == end: 
status = False 
return status 
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country_line = total_line = False 0 


for line in openfile: 
if country_line or total_line: © 
print '%r' % line 


country_line = turn_on_off(line, country_line, 'and areas') © 
total_line = turn_on_off(line, total line, 'total') @ 


@ 根据 Python 的 语法 ， 一连串 = 符号 的 意思 是 ， 我 们 将 最 后 一 个 值 赋值 给 前 面 每 一 个 变 
量 。 本 行 代 码 将 False 同时 赋值 给 country_line 和 total_line。 

@ 我 们 仍然 想 要 记录 在 开 状 态 下 每 一 行 包含 的 数据 。 因 此 我 们 使 用 了 or。Python 中 or 的 
意思 是 ， 如 果 二 者 之 一 为 真 ， 执 行 下 面 的 命令 。 本 行 代码 的 意思 是 ， 如 果 country_line 
和 total_line 有 一 个 值 为 True， 打印 出 该 行 的 内 容 。 

加 对 国家 调用 函数 。 将 函数 返回 的 状态 保存 到 country_Line 变量 中 ， 用 于 下 一 次 for 循环 。 

@ 对 总 数 调用 函数 。 这 一 行 代 码 与 上 一 行 对 国名 的 用 法 是 相同 的 。 

下 面 将 国家 和 总 数 保存 成 列表 。 然 后 将 这 些 列表 转换 成 一 个 字典 ， 字 典 的 键 是 国名 ， 字 — 典 

的 值 是 童工 总 数 。 这 样 我 们 就 可 以 判断 是 否 需 要 清洗 数据 。 

创建 两 个 列表 的 代码 如 下 : 

countries = [] 
totals = [] 


country_line = total_line = False 
for line in openfile: 





















































© 


if country_line: 
countries.append( line) 

elif total_line: 
totals.append( line) 日 


GO 


country_line = turn_on_off(line, country_line, 'and areas') 

total_line = turn_on_off(line, total_ line, 'total') 
@ 创建 空 的 国家 列表 。 
名 创建 空 的 总 数列 表 。 
@@ 注意 我 们 删除 了 if country_Line or total_line 语句 。 下 面 我 们 将 这 条 语句 分 开 来 写 。 
@ 如 果 该 行 包含 国家 ， 将 国家 添加 到 国家 列表 中 。 
@ 这 一 行 采集 的 是 总 数 ， 与 上 一 行 的 采集 国家 的 用 法 相同 。 
我 们 将 采用 “拉链 方法 ”(zipping) 将 国家 和 总 数 两 个 数据 集合 并 。zip 函数 从 每 一 个 列表 
中 取出 一 个 元 素 ， 然 后 将 其 配对 ， 直 到 所 有 的 元 素 全 部 配对 完成 。 我 们 可 以 将 合并 后 的 列 
表 传递 给 dict 函数 ， 从 而 将 其 转换 成 字典 。 


在 脚本 最 后 添加 以 下 代码 : 


import pprint 
test_data = dict(zip(countries, totals)) 














@ 
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pprint.pprint(test_data) © 


@ 导入 pprint 库 。 对 于 复杂 的 数据 结构 ， 这 个 库 的 打印 格式 可 读 性 更 好 。 
名 将 国家 和 总 数 合并 到 一 起 ， 然 后 转换 成 一 个 字典 ， 将 字典 保存 到 一 个 叫 作 test_data 的 


三 关 
变量 








o 


四 将 test_data 传递 给 pprint.pprint() 函数 ， 以 美观 的 格式 打印 出 数据 。 
现在 运行 脚本 ， 你 会 得 到 类 似 这 样 的 一 个 字典 : 


{'\n': '49 \n', 
' We '\xe2\x80\x93 _\n', 
Republic of Korea \n': '70  \n', 
Republic of) \n': '\xe2\x80\x93 _\n', 
State of) \n': '37 \n', 
of the Congo \n': '\xe2\x80\x93 _\n', 
' the Grenadines \n': '60 \n', 
'Afghanistan \n': '10 \n', 
'Albania \n': '12 \n', 
'Algeria \n': '5 y \n', 
'Andorra \n': '\xe2\x80\x93 大 
'Angola \n': '24 x \n', 
'Antigua and Barbuda \n': '\xe2\x80\x93 Nhs 
'Argentina \n': '7 y \n', 
'Armenia \n': '4 \n', 
'Australia \n': '\xe2\x80\x93 \n "ss 


现在 我 们 需要 做 一 些 数据 清洗 工作 。 更 详细 的 内 容 将 会 在 第 7 章 中 介绍 。 现 在 我 们 需要 做 
的 是 清洗 字符 串 ， 因 为 它们 的 可 读 性 很 差 。 我 们 将 创建 一 个 函数 来 清洗 每 一 行 的 内 容 。 将 
这 个 函数 放 在 for 循环 前 面 ， 与 男 一 个 函数 放 在 一 起 : 

def cLean( bine 





























清洗 代码 中 的 换行 符 、 空 格 以 及 其 他 特殊 符号 。 


Line = line.strip('\n').strip() 0 
Line = line.replace('\xe2\x80\x93', '-') (2) 
line = line.replace('\xe2\x80\x99', '\'') 

return line © 


@ 删除 该 行 中 的 \n， 然 后 重新 赋值 给 Line， 现 在 Line 中 保存 的 是 清洗 后 的 数据 。 
名 标 换 特殊 字符 编码 。 

@ 返回 清洗 后 的 新 字符 串 。 

在 上 面 的 数据 清洗 中 ， 我 们 可 以 把 方法 调用 合并 在 一 起 ， 像 这 样 : 


Line = line.strip('\n').strip().replace( 
'\xe2\x80\x93', '-').replace('\xe2\x80\x99s', '\'') 


然而 ， 想 要 格式 美观 ， 每 一 行 Python 代码 的 长 度 不 应 超过 80 个 字符 。 这 只 
是 一 个 建议 ， 并 不 是 规定， 但 控制 生 行 代 码 的 长 度 可 以 失 训 代 凤 的 可 计 作 
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下 我们 将 clean_line 函数 应 用 到 for 循环 中 


for line in openfile: 
if country_line: 
countries.append(clean( line)) 
elif total_line: 
totals.append(clean( line)) 


现在 运行 脚本 ， 我 们 得 到 的 输出 更 加 接近 我 们 的 目标 : 


{'Afghanistan': '10', 
'Albania': '12', 
'Algeria': '5 y', 
'Andorra': '-', 

'Angola': '24 x', 
"Antigua and Barbuda': '-' 
'Argentina': '7 y', 








3 


'Armenia': '4'， 
'Australia': '-', 
'Austria': '-', 


'Azerbaijan': '7 y', 


浏览 一 下 输出 ， 你 会 发 现 我 们 的 方法 没 能 充分 解析 所 有 的 数据 。 我 们 需要 找 出 问题 的 原因 。 
名 字 超 过 一 行 的 国家 似乎 被 分 成 了 两 条 数据 记录 。 从 玻利维亚 〈Bolivia) 的 数据 可 以 发 


现 这 一 点 : 我 们 有 两 条 记录 ， 一 条 是 'Bolivia (Plurinational': '',， 另 一 条 是 'State 
of)': '26 y',, 


在 PDF 文件 里 可 以 查看 数据 的 组 织 结构 。 你 可 以 在 PDF 中 看 到 图 5-2 中 的 这 几 行 。 














Bhutan 3] 3 | 
Bolivia (Plurinational 

State of) 26 y 28 y 24 y 
Bosnia and Herzegovina 5 了 4 
Botswana 9 y 11y 7 
Brazil 9 y My 6y 











图 5-2: PDF 文件 中 的 玻利维亚 数据 














PDF 文件 仿佛 兔子 洞 一 般 。 处 理 每 一 个 PDF 文件 都 要 用 到 特殊 的 技巧 。 由 于 
我 们 对 这 个 PDF 只 需要 解析 一 次 ， 所 以 我 们 做 了 许多 人 工 检查 的 工作 。 如 果 
需要 定期 解析 这 个 PPF， 我 们 需要 仔细 查看 数据 随时 间 变 化 的 规律 ， 然 后 用 
程序 来 处 理 这 些 规律 ， 还 要 对 代码 进行 检查 和 测试 ， 确 保 导 入 的 数据 正确 。 























解决 这 个 问题 有 两 种 方法 。 我 们 可 以 创建 一 个 占 位 符 ， 找 到 总 数 里 面 的 空白 行 ， 然 后 将 空 
白 行 与 后 面 的 数据 行 合 并 。 另 一 种 方法 是 找 出 那些 国名 长 度 不 止 一 行 的 国家 。 由 于 我 们 的 
数据 集 不 是 很 大 ， 所 以 我 们 将 尝试 第 二 种 方法 。 
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我 们 将 创建 一 个 列表 ， 里 面包 含 每 一 个 跨行 国家 的 第 一 行内 容 ， 然 后 在 脚本 中 用 这 个 列表 
来 检查 每 一 行 。 你 需要 将 这 个 列表 放 在 for 循环 之 前 。 参 考 元 素 通 常会 放 在 脚本 的 开头 ， 
在 必要 时 方便 找到 并 修改 。 

将 Bolivia (Plurinational 添加 到 双 行 国家 组 成 的 列表 中 : 


double_lined countries = [ 
'Bolivia (Plurinational', 























] 


现在 我 们 需要 修改 for 循环 ， 检 查 上 一 行内 容 是 否 包含 在 double_lined_countries 列表 中 ， 
如 果 是 的 话 ， 将 上 一 行 与 这 一 行 合 并 。 为 此 我 们 需要 创建 一 个 previous_line 变量 。 然 后 
在 for 循环 的 结尾 对 previous_line 变量 赋值 。 只 有 这 样 ， 在 代码 进行 到 循环 的 下 一 次 迭 
代 时 ， 我 们 才能 将 两 行 合并 : 

countries = [] 

totals = [] 


country_line = total_line = False 
previous line = ""' 0 























for line in openfile: 
if country_line: 
countries.append(clean(line)) 
elif total_line: 
totals.append(clean( line)) 


country_line = turn_on_off(line, country_line, 'and areas') 
total_line = turn_on_off(line, total_line, 'total') 


previous_line = line © 
@ 创建 previous_line 变量 ， 值 为 空 字符 串 。 
@ 在 for 循环 的 结尾 ， 将 previous_Line 的 值 修改 为 当前 行 的 内 容 。 


现在 有 了 previous_line 变量 ， 我 们 可 以 检查 previous_line 是否 在 double_lined_ 
countries 列表 中 ， 这 样 我 们 就 知道 何 时 将 当前 行 与 上 一 行 合 并 。 另 外 ， 我 们 还 要 将 新 合 
并 的 一 行 添 加 到 国家 列表 中 。 如 果 国 名 的 前 半 部 分 在 double_lined_countries 列表 中 的 
话 ， 一 定 不 要 将 第 一 行 添加 到 国名 列表 中 。 


根据 上 面 的 描述 ， 对 代码 做 如 下 修改 : 















































if country_line: 0 
if previous_line in double_lined_countries: 
line = ' '.join([clean(previous_line), clean(line)]) @ 
countries.append(line) 
elif line not in double_lined countries: © 


countries.append(clean(line)) 


@ 我 们 需要 if country_line 的 逻辑 ， 因 为 它 只 与 国名 相关 。 

@ 如 果 previous_Line 在 double_lined_countries 列表 中 ， 那 么 将 previous_line 与 当前 
行 合 并 ， 并 将 合并 后 的 内 容 赋值 给 Line 变量 。 你 可 以 看 到 ，joiin 的 作用 是 利用 最 前 务 
的 字符 串 将 一 个 字符 串 列表 合并 在 一 起 。 本 行 代码 使 用 空格 作为 连接 字符 。 
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@ 如 果 该 行 不 在 doubte_Lined_countries 列表 中 ， 那 么 将 该 行内 容 添加 到 国家 列表 中 。 这 
里 我 们 用 的 是 elif， 在 Python 中 的 意思 是 else if。 如 果 你 想 使 用 一 种 不 同 于 if - 
else 的 逻辑 流 ， 这 是 一 个 很 好 用 的 工具 。 

重新 运行 脚本 ， 我 们 发 现 'Bolivia (Plurinational State of)' 已 经 合 在 一 起 了 。 现 在 我 

们 需要 检查 结果 中 是 否 包 含 了 所 有 国家 。 由 于 数据 集 比 较 小 ， 我 们 可 以 手动 检查 ， 但 如 有 果 

数据 集 较 大 的 话 ， 你 需要 将 检查 过 程 自动 化 。 





























数据 检查 自动 化 
何 时 手动 检查 数据 ， 何 时 用 Python 自动 化 完成 ， 怎 么 选择 ? 下面 给 出 几 点 建议 。 
。 如 果 要 定期 反复 解析 数据 ， 选 择 自动 化 。 
。 如 果 你 的 数据 集 比 较 大 ， 你 很 可 能 应 该 选择 自动 化 。 
。 如 果 你 的 数据 集 可 榨 ， 而 且 你 只 需要 解析 一 次 ， 那 么 你 选 哪 种 方式 都 可 以 。 在 我 们 
的 例子 中 ， 数 据 集 很 小 ， 所 以 我 们 没有 选择 自动 化 。 











用 PDF 阅读 器 查看 PDF 文件 ， 找 出 所 有 占 两 行 的 国家 名 称 : 


Bolivia (Plurinational State of ) 
Democratic People's Republic of Korea 
Democratic Republic of the Congo 

Lao People's Democratic Republic 
Micronesia (Federated States of) 

Saint Vincent and the Grenadines 

The former Yugoslav Republic of Macedonia 
United Republic of Tanzania 

Venezuela (Bolivarian Republic of) 


我 们 知道 ， 这 些 国 名 的 Python 表示 可 能 不 是 这 样 的 ， 所 以 我 们 需要 将 国家 打印 出 来 ， 看 看 
它们 的 Python 表示 是 什么 样子 ， 然 后 将 其 添加 到 列表 中 : 


if country_line: 
print '%r' % line 0 
if previous_line in double_lined_ countries: 


@ 添加 print '%r' 语句 ， 输 出 国名 的 Python 表示 。 
运行 脚本 ， 将 双 行 国名 的 Python 表示 添加 到 double_lined_countries 列表 中 : 


double_lined countries = [ 
'Bolivia (Plurinational \n', 
'Democratic People\xe2\x80\x99s \n', 
'Democratic Republic \n', 
'Micronesia (Federated \n', 
#.. .糟糕 | 








] 


我 们 的 输出 中 漏 掉 了 Lao People’s Democratic Republic (老挝 人 民 民 主 共和 国 ), 但 它 在 
PDF 中 占 了 两 行 。 我 们 打开 PDF 的 文本 文件 ， 看 看 问题 出 在 哪里 。 


























看 完 文 本 文件 ， 你 能 发 现 问题 所 在 吗 ? 再 看 一 下 turn_on_off 函数 。 这 个 函数 的 原理 与 文 
本 的 书写 方式 有 什么 关系 ? 


问题 在 于 ，and areas 之 后 紧 跟着 一 个 空 行 〈(\n) ， 这 正 是 我 们 要 寻找 的 标志 。 查 看 我 们 创 
建 的 文本 文件 ， 你 会 发 现在 1345 和 es 

















1343 Countries 

1344 and areas 

1345 

1346 Iceland 

1347 India 

1348 Indonesia 

1349 Iran (Islamic Republic of) 


这 说 明 我 们 的 函数 没有 正常 运行 。 解 决 这 个 问题 有 好 几 种 方法 。 对 于 这 个 例子 来 说 ， 我 们 
可 以 加 入 更 多 的 代码 逻辑 ， 保 证 开 / 关 代 码 的 运行 符合 预期 。 开 始 采 集 国名 时 ， 在 结束 采 
集 之 前 应 该 采集 到 了 至 少 一 个 国家 。 如 果 一 个 国家 都 没有 采集 到 的 话 ， 那 么 我 们 不 应 该 结 
束 采集 过 程 。 我 们 还 可 以 使 用 上 一 行 来 解决 这 个 问题 。 我 们 可 以 在 开 / 关 函数 中 检查 上 一 
行 代码 ， 确 保 它 不 属于 某 些 特殊 行 

我 们 采用 增加 特殊 行 的 方法 ， 以 防 遇 到 其 他 异常 ; 


def turn_on_off(line, status, start, prev_line, end='\n'): 

















该 函数 用 于 检查 该 行 会 是 否 开始 /结束 于 特定 值 。 
如 果 是 , 且 上 一 行 不 是 特殊 行 ， 
则 状态 设 为 开 / 关 ( 真 / 假 )。 























if line.startswith(start): 
status = True 
elif status: 
if line == end and prev_line != 'and areas': 0 
status = False 
return status 


@ 如 果 当 前 行 的 值 等 于 end， 而 且 上 一 行 的 值 不 等 于 and areas， 那 么 我 们 可 以 结束 数据 采 
集 。 这 里 我 们 用 的 是 !:=， 这 是 Python 用 来 测试 “不 相等 ”的 方法 。 与 == 类 似 ，!= 返 
回 的 也 是 布尔 值 。 


你 还 需要 修改 调用 函数 的 代码 ， 将 previous_Line 传人 函数 : 


country_line = turn_on_off(line, country_line, 'and areas', previous_line) 
total_line = turn_on_off(line, total_line, 'total', previous_ line) 


回 到 我 们 最 开始 的 任务 一 一 创建 双 行 国家 的 列表 ， 确 保 采 集 到 所 有 双 行 国家 。 我 们 前 面 
行 到 了 这 一 步 : 
double_lined_countries = [ 


'Bolivia (Plurinational \n', 
'Democratic People\xe2\x80\x99s \n', 




















矢 
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'Democratic Republic \n ' ， 


] 





查看 PDF 文件 ， 我 们 看 到 下 一 个 双 行 国家 是 Lao People’s Democratic Republic (老挝 人 
民 民 主 共和 国 )。 我 们 继续 将 脚本 输出 的 其 他 双 行 国家 添加 到 这 个 列表 中 : 








double_lined countries = [ 

'Bolivia (Plurinational \n', 
'Democratic People\xe2\x80\x99s \n', 
'Democratic Republic \n', 

'Lao People\xe2\x80\x99s Democratic \n', 
'Micronesia (Federated \n', 

'Saint Vincent and \n', 

'The former Yugoslav \n', 

'United Republic \n', 

'Venezuela (Bolivarian \n', 


] 
运行 脚本 ， 你 的 输出 应 该 找 出 了 所 有 占 两 行 


如 果 你 的 列表 看 起 来 和 上 面 的 列表 相似 的 话 ， 运 行 
的 国名 。 一 定 要 在 脚本 结尾 添加 print 语句 来 查看 国家 列表 : 





import pprint 
pprint.pprint(countries) 
前 面 我 们 在 国家 列表 上 花 了 不 少时 间 ， 你 能 想 出 解决 这 个 问题 的 其 他 方法 吗 ? 看 一 下 几 个 
双 行 国家 的 第 二 行 : 

' Republic of Korea \n' 

' Republic \n' 

' of the Congo \n' 
它们 有 什么 共同 点 ? 都 以 空格 开头 。 用 代码 检查 每 一 行 开头 是 否 有 三 个 空格 ， 这 是 一 种 更 
有 效 的 做 法 。 但 是 采用 前 面 第 一 种 方法 ， 可 以 在 采集 数据 的 过 程 中 发 现 数据 集 的 部 分 缺 
失 。 随 着 你 编程 水 平 的 不 断 提高 ， 你 将 学 会 解决 同一 问题 的 各 种 方法 ， 然 后 找 出 最 佳 方法 。 




















i 我 们 看 一 下 童工 总 数 和 国家 的 对 应 情况 。 修 改 pprint 语句 ， 如 下 所 示 : 
0 


import pprint 
data = dict(zip(countries, totals)) 
@ 


下 玫 











pprint.pprint(data) 


@ 调用 zip(countries，totats)， 将 国家 列表 和 总 数列 表 合并 。 这 样 把 两 个 列表 变 成 了 元 
组 。 然 后 我 们 把 元 组 传递 给 dict 函数 ， 将 其 转换 成 字典 。 


@ 打印 出 我 们 刚 创建 的 data 变量 。 
返回 的 是 一 个 字典 ， 国 家 名 称 是 字典 的 键 ， 童工 总 数 是 字典 的 值 。 这 并 不 是 我 们 最 终 的 数 


个 字 
据 格式 。 我 们 这 样 做 是 为 了 查看 当前 的 数据 。 结 果 应 该 是 像 这 样 的 











{2 ey 

'Afghanistan': "10 '， 
'Albania': "12 ， 
'Algeria': '5 y', 
'Andorra': '-', 
'Angola': '24 x', 
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本 


对 比 PDF 再 次 检查 这 些 数据 ， 你 会 发 现 ， 就 在 双 行 国家 第 一 次 出 现 的 地 方 ， 数 据 出 现 了 错 
误 。 对 应 的 数字 来 自 出 生 登 记 (Birth registration) 一 列 : 





{ 
'Bolivia (Plurinational State of)': '', 
'Bosnia and Herzegovina': '37', 
'Botswana': '99', 


'Brazil': '99°', 
je 
如 果 查 看 PDF 的 文本 文件 ， 你 会 注意 到 在 双 行 国家 对 应 的 数字 那里 有 一 个 空 行 : 





和 和 采集 国名 遇 到 的 问题 一 样 ， 我 们 要 用 相同 的 方法 来 处 理 这 个 数据 采集 问题 。 如 果 我 们 的 
数据 中 有 空白 行 ， 一 定 不 要 把 空 行 采集 到 数据 中 ， 这 样 我 们 只 采集 与 国名 匹配 的 数据 。 修 
改 后 的 代码 如 下 : 


for Line in openfile: 
if country_line: 
print '%r' % Line 
if previous_line in double_lined_ countries: 
Line = ' '.join([clean(previous_ line), clean(line)]) 
countries.append(line) 
elif line not in double_lined countries: 
countries.append(clean(line)) 





elif total_line: 
if len(line.replace('\n', '').strip()) > 0: 0 
totals.append(clean(line)) 


country_line = turn_on_off(line, country_line, 

"and areas', previous_line) 
total_line = turn_on_off(line, total_line, 

'total', previous_line) 
previous_line = line 


@ 从 经 验 中 我 们 知道 ，PDF 文件 使 用 换行 符 作 为 空 行 。 本 行 代码 用 空 字符 串 替 代 换 行 符 ， 
并 删除 空格 来 清洗 数据 。 然 后 测试 字符 串 的 长 度 是 否 仍然 大 于 0。 如 果 是 的 话 ， 我 们 认 
为 里 面包 含 数据 ， 并 将 其 添加 到 童工 总 数列 表 中 。 

运行 修改 后 的 代码 ， 在 第 一 个 双 行 国家 那里 数据 又 出 现 了 问题 。 这 次 第 一 个 双 行 国家 对 应 

的 还 是 出 生 登 记 数 据 。 之 后 的 数值 也 都 是 错误 的 。 回 来 看 一 下 文本 文件 ， 找 到 问题 出 在 哪 
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里 。 如 有 果 你 查看 PDF 文件 里 对 应 的 那 列 数据 ， 会 发 现 PDF 文本 文件 中 的 规律 是 从 1251 行 
开始 的 : 





1250 
1251 total 
1252 # 
1253 5 六 
1254 26 
1255 - 
1266 S 
进一步 观察 发 现 ， 出 生 登 记 列 标题 的 结尾 是 total: 
266 Birth 
267 registration 
268 (%)+ 
269 2005-2012* 
270 total 
271 37 
272 99 





目前 搜集 童工 总 数 的 函数 找寻 的 是 total 这 个 词 ， 所 以 在 找到 下 一 行 国家 之 前 ， 我 们 先 找到 
了 这 一 列 数据 。 我 们 还 发 现 暴 力 惩 戒 比 例 [Violent discipline (%)] 列 也 有 一 个 total 标签 ， 
上 面 有 一 个 空 行 。 这 和 我 们 要 采集 的 total 具有 相同 的 规律 。 
接二连三 地 遇 到 bug， 说 明 你 的 代码 逻辑 可 能 存在 问题 。 我 们 的 脚本 最 开始 用 的 是 开 / 关 
函数 ， 所 以 想 要 从 根本 解决 问题 ， 就 要 重 构 那里 的 逻辑 。 我 们 想 要 知道 如 何 找到 正确 的 数 
据 列 ， 或 许可 以 采集 列 名 并 排序 。 我 们 可 能 还 需要 找到 一 种 方法 ， 检 查 “ 页 码 ” 是 否 发 生 
了 变化 。 如 果 我 们 一 直 这 样 头 痛 医 头 脚 痛 医 丢 ， 很 可 能 会 遇 到 更 多 的 错误 。 
































只 在 脚本 上 投入 你 认为 必要 的 时 间 。 如 果 你 想 构 建 一 个 可 持续 过 程 ， 在 很 
长 一 段 时 间 内 都 可 以 在 大 型 数据 集 上 多 次 运行 ， 你 需要 花 时 间 仔 细 考 虑 所 
有 步骤 。 











这 就 是 编程 的 过 程 ， 写 代码 ， 调 试 ， 写 代码 ， 调 试 。 无 论 是 经 验 多 么 丰富 的 程序 员 ， 有 了 时 
都 会 在 代码 中 遇 到 错误 。 在 学 习 编 程 的 过 程 中 ,过 到 错误 会 非常 诅 形 。 你 可 能 会 想 :“ 为 
什么 无 法 运行 ? 一定 是 我 不 擅长 编程 。 但 事实 并 非 如 此 。 和 其 他 事情 一 样 ， 编 程 也 需要 
练习 。 

现在 看 来 ， 我 们 目前 的 方法 显然 是 行 不 通 的 。 根 据 我 们 目前 对 文本 文件 的 了 解 ， 可 以 这 么 
说 ， 在 利用 文本 寻找 每 一 部 分 数据 的 开始 和 结束 时 ， 我 们 选用 的 标志 是 错误 的 。 我 们 还 可 
以 用 这 个 文件 重新 开始 ， 换 一 个 角度 来 思 芳 ;但 我 们 想 探 索 解决 问题 的 其 他 方法 ， 修 正 错 
误 并 获取 想 要 的 数据 。 


4 和 :3 2 
5.4 学 习 解 决 问题 的 方法 
本 节 包 含 好 几 个 练习 ， 你 可 以 试 着 解析 PDF 脚本 ， 同 时 挑战 自己 写 Python 代码 的 能 
首先 ， 我 们 先 来 回顾 一 下 已 经 写 好 的 代码 : 
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pdf_txt = 'en-finaL-tabLe9.txt' 
openfile = open(pdf_txt, "r") 


double_lined countries = [ 
'Bolivia (Plurinational \n', 
'Democratic People\xe2\x80\x99s \n', 
"Democratic Republic \n', 
'Lao People\xe2\x80\x99s Democratic \n', 
'Micronesia (Federated \n', 
'Saint Vincent and \n', 
'The former Yugoslav \n', 
'United Republic \n', 
'Venezuela (Bolivarian \n', 


def turn_on_off(line, status, prev_line, start, end='\n', count=0): 





该 函数 用 于 检查 该 行 会 是 否 开始 /结束 于 特定 值 。 
如 果 是 , 且 上 一 行 不 是 特殊 行 ， 
则 状态 设 为 开 / 关 ( 真 / 假 )。 
if line.startswith(start): 
status = True 
elif status: 
if line == end and prev_Line != 'and areas': 
status = False 
return status 























def clean(line): 


清洗 代码 行 中 的 换行 符 、 空 格 以 及 特殊 符号 。 





Line = line.strip('\n').strip() 
line = line.replace('\xe2\x80\x93', '-') 
line = line.replace('\xe2\x80\x99', '\'') 


return line 


countries = [] 

totals = [] 

country_line = total_line = False 
previous_ line = "" 


for line in openfile: 
if country_line: 
if previous_line in double_lined_countries: 
Line = ' '.join([clean(previous_ line), clean(line)]) 
countries.append(line) 
elif Line not in double_lined_countries: 
countries.append(clean(line)) 


elif total_line: 
if len(line.replace('\n', '').strip()) > 0: 
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totals.append(clean(line)) 


country_line = turn_on_off(line, country_line, 
'and areas', previous_line) 
total_line = turn_on_off(line, total_line, 
'total', previous_line) 
previous_ line = line 


import pprint 
data = dict(zip(countries, totals)) 
pprint.pprint(data) 


有 好 几 种 方法 可 以 解决 我 们 面临 的 问题 。 在 接 下 来 的 几 节 中 ， 我 们 会 讲 到 其 中 几 种 解决 
方法 。 


5.4.1 练习 : 使 用 表格 提取 ， 换 用 另 一 个 库 

前 面 我 们 对 PDF 转换 成 文本 遇 到 的 困难 头痛 不 已 ， 下 面 我 们 寻找 其 他 方法 来 实现 表格 提 
取 ， 不 用 pdfminer。 我 们 找到 了 pdftables 库 (http:/pdftables.readthedocs.org/) ， 这 个 库 已 
经 不 再 更 新 了 (原作 者 的 最 后 一 次 更 新 时 间 是 两 年 多 以 前 )。 

我 们 需要 安装 必要 的 库 (http://pdftables.readthedocs.io/en/latest/#installation) ， 只 需 运 行 pip 
install pdftables 和 pip install requests 即 可 完成 安装 。 原 作者 并 没有 及 时 更 新 所 有 的 
文档 ， 所 以 文档 和 README.md 中 的 某 些 例子 明显 是 错 的 。 尽 管 如 此 ， 我 们 还 是 找到 了 一 
个 “多 合 一 ”(all in one) 的 函数 ， 可 以 用 来 获取 我 们 想 要 的 数据 : 


from pdftables import get_tables 









































all_tables = get_tables(open('EN-FINAL Table 9.pdf', 'rb')) 


print all_tables 
我 们 创建 一 个 新 的 代码 文件 (pdf_table_data.py) 并 运行 。 你 应 该 会 看 到 旋风 般 滚 动 的 数 
据 ， 看 起 来 就 是 我 们 要 提取 的 数据 。 你 会 注意 到 ， 标 题 并 不 是 完全 正确 ， 但 每 一 行 的 内 容 
似乎 都 包含 在 aLL_tables 变量 中 。 我 们 来 仔细 观察 一 下 ， 看 看 如 何 提取 我 们 想 要 的 标题 、 
数据 列 和 注释 。 
你 可 能 也 注意 到 了 ，atl_tables 是 一 个 由 列表 组 成 的 列表 (或 者 叫 算 阵 )。 它 有 很 多 行 ， 
每 一 行 里 还 包含 很 多 行 。 这 种 方法 可 能 很 适合 表格 提取 ， 因 为 表格 本 质 上 就 是 行 和 列 。 
get_tables 国 数 返 回 的 是 每 一 页 内 容 组 成 的 表格 ， 每 个 表格 都 包含 一 个 行列 表 ， 每 个 元 素 
又 是 由 许多 列 组 成 的 列表 。 
第 一 步 ， 找 到 每 一 列 的 标题 。 我 们 试 着 查看 输出 的 前 几 行 ， 看 能 否 找到 列 标题 : 


print all_tables[0][:6] 


我 们 看 一 下 第 一 页 的 前 六 行 : 














Ti 和 
U5 
Ti 各 


U 3 

U'Birth ' ， 

u'Female', 

u'genital mutila', 
u'tion/cutting (%)+', 
U'Jus', 

u'tification of', 

U'', 

U'', 

ur" 

Fons 

Uu'', 

u'Child Labour (%', 
U')+', 

u'Child m', 

u'arriage (%)', 
u'registration', 

Uu'', 

U'2002Nu201320 ' ， 
U12*"; 

u'wife', 

u'beating (%)', 

u'', 

Uu'Violent disciplin', 
u'e (%)+ 9'], 
[u'Countries and areas', 
u'total', 
U'2005\y20132012*male'， 
u'female', 

u'2005married by 15 ' ， 
U'\u20132012*married by 18 ' ， 
U'(%)+ 2005\y20132012*total', 
U'prwomena', 
u'evalencegirlsb', 
u'attitudessupport for thepracticec', 
u'2male', 
Uu'Q005\u20132012*female', 
u'total', 

U "2005\u20132012x*matLe ' ， 
u'female'],... 


可 以 看 到 ， 标 题 都 包含 在 前 三 个 列表 中 ， 格 式 混乱 。 从 print 语句 的 输出 中 还 可 以 看 出 ， 
每 行 数 据 还 是 相当 干净 的 。 如 果 我 们 对 比 PDF 文件 手动 设置 标题 (如 下 所 示 )， 可 以 得 到 
干净 的 数据 集 : 


headers = ['Country', 'Child Labor 2005-2012 (%) total', 
'Child Labor 2005-2012 (%) male', 
'Child Labor 2005-2012 (%) female', 
'Child Marriage 2005-2012 (%) married by 15', 
'Child Marriage 2005-2012 (%) married by 18', 
'Birth registration 2005-2012 (%)', 
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"FemaLe Genital mutilation 2002-2012 (prevalence), women', 
'Female Genital mutilation 2002-2012 (prevalence), girls', 
'Female Genital mutilation 2002-2012 (support)', 
'Justification of wife beating 2005-2012 (%) male', 
'Justification of wife beating 2005-2012 (%) female', 
'Violent discipline 2005-2012 (%) total', 

'Violent discipline 2005-2012 (%) male', 

'Violent discipline 2005-2012 (%) female'] ©@ 


for table in all_tables: 
for row in table: 
print zip(headers, row) @ 


@ 将 所 有 标题 添加 到 一 个 列表 中 ， 其 中 包括 国名 。 现 在 我 们 可 以 将 这 个 列表 与 行 数据 合 
并 ， 将 数据 和 标题 对 齐 。 
@@ 使 用 zip 方法 将 标题 与 每 一 行 数据 合并 。 


从 代码 输出 中 可 以 看 出 ， 有 些 行 我 们 已 经 匹配 好 了 ， 但 还 有 很 多 行 不 是 国家 行 (和 我 们 之 
前 的 结果 类 似 ， 之 前 在 表格 中 发 现 了 多 余 的 空格 和 空 行 )。 


根据 目前 所 学 的 内 容 ， 我 们 希望 用 编程 加 测试 的 方法 解决 这 个 问题 。 我 们 知道 有 些 国家 占 
了 不 止 一 行 。 我 们 还 知道 PDF 文件 用 破 折 号 〈-) 表示 数据 缺失 ， 所 以 全 空 的 行 实际 上 不 
是 数据 行 。 从 上 一 次 print 输出 中 我 们 就 知道 ， 每 一 页 的 数据 从 第 五 行 开始 。 我 们 还 知道 ， 
我 们 关注 的 最 后 一 行 是 津巴布韦 (Zimbabwe)。 将 我 们 已 知 的 内 容 综合 在 一 起 ， 我 们 得 到 : 
for table in all_tables: 
for row in table[5:]: © 
if row[2] == '': @ 
print row 

@ 在 每 一 页 中 找 出 我 们 想 要 的 那些 行 ， 即 索引 数 为 5 之 后 的 切片 。 
@ 如 果 数 据 为 空 ， 打 印 查看 该 行内 容 。 
运行 代码 ， 你 会 发 现 列表 中 包含 一 些 随机 分 布 的 空白 行 ， 其 中 也 不 包含 国名 。 这 可 能 就 是 
我 们 上 一 段 脚 本 的 问题 所 在 。 我 们 稚 试 将 国名 合并 在 一 起 ， 跳 过 其 他 空白 行 。 我 们 还 加 上 
对 津巴布韦 (Zimbabwe) 的 测试 : 





























first_name = 


for table in all_tables: 
for row in table[5:]: 


if row[0] == '': ©@ 
continue 

if row[2] == "': 
first_name = row[0] ©@ 
Continue 


if row[0].startswith(' '): 

row[0] = '{} {}'.format(first_name, row[0]) 
print zip(headers, row) @ 
if row[0] == 'Zimbabwe': 

break © 


























@ 如 果 数 据 行 素 引 数 为 0 的 值 缺 失 ， 说 明 这 一 行 不 包含 国名 ， 是 一 个 空 行 。 下 一 行 代码 用 
continue 跳 过 这 一 行 ，continue 是 一 个 Python 关键 字 ， 作 用 是 转 到 for 循环 的 下 一 次 迭代 。 
@ 如 果 数 据 行 索引 数 为 2 的 值 缺失 ， 我 们 知道 这 可 能 是 国名 的 前 半 部 分 。 本 行 代码 将 国名 
的 前 半 部 分 保存 为 变量 first_name。 下 一 行 代码 跳 转 到 下 一 行 数据 。 

@ 如 果 数 据 行 以 空格 开头 ， 我 们 知道 这 是 国名 的 后 半 部 分 。 我 们 希望 将 国名 的 两 部 分 重新 
合并 在 一 起 。 

@ 如 果 我 们 的 假设 正确 ， 观 察 打 印 出 的 结果 ， 数 据 应 该 是 匹配 好 的 。 本 行 代码 打印 出 每 次 
迭代 的 内 容 ， 便 于 我 们 观察 。 

© 过 到 津巴布韦 (Zimbabwe) 时 ， 本 行 代码 跳出 for 循环 。 


大 部 分 数据 看 起 来 都 是 正确 的 ， 但 我 们 还 会 发 现 一 些 异 常数 据 。 看 下 面 这 个 例子 : 


[('Country', u'80 THE STATE OF TT'), 

('Child Labor 2005-2012 (%) total’', u'HE WOR'), 

('Child Labor 2005-2012 (%) male', yu'LD\y2019S CHILDRE'), 
('Child Labor 2005-2012 (%) female', uy'N 2014'), 

('Child Marriage 2005-2012 (%) married by 15', yu'IN NUMBER'), 
('Child Marriage 2005-2012 (%) married by 18', u'S'), 

('Birth registration 2005-2012 (%)', u''), 


可 以 看 到 ， 开 头 的 页 码 被 误 以 为 是 国名 。 你 知道 哪些 国家 名 称 里 有 数字 吗 ? 我 们 当然 不 知 
道 ! 我 们 添加 一 个 对 数字 的 测试 ， 看 是 否 能 剔除 坏 数 据 。 我 们 还 注意 到 双 行 国家 的 对 应 并 
不 正确 。 从 输出 来 看 ，pdftables 在 导入 数据 时 会 自动 修正 行 首 的 空格 。 太 好 了 ! 现在 我 
们 应 该 添加 一 个 测试 ， 测 试 上 一 行 数 据 有 没有 first_name: 


from pdftables import get_tables 
import pprint 


























headers = ['Country', 'Child Labor 2005-2012 (%) total', 
'Child Labor 2005-2012 (%) male', 
'Child Labor 2005-2012 (%) female', 
'Child Marriage 2005-2012 (%) married by 15', 
'Child Marriage 2005-2012 (%) married by 18', 
'Birth registration 2005-2012 (%)', 
'Female Genital mutilation 2002-2012 (prevalence), women', 
'Female Genital mutilation 2002-2012 (prevalence), girls’', 
'Female Genital mutilation 2002-2012 (support) ' ， 
'Justification of wife beating 2005-2012 (%) male', 
'Justification of wife beating 2005-2012 (%) female', 
'Violent discipline 2005-2012 (%) total', 
'Violent discipline 2005-2012 (%) male', 
'Violent discipline 2005-2012 (%) female'] 


all_tables = get tables(open('EN-FINAL Table 9.pdf', 'rb')) 


False 


[] 


for table in all_ tables: 
for row in table[5:]: 
if row[0] == '' or row[0][0].isdigit() : 


first_name 
final_data 
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continue 
elif row[2] == "": 
first_ name = row[0] 
continue 
if first nane: ©@ 
row[0] = u'{} {}'.format(first_name, row[0]) 
first_ name = False @ 
final_data.append(dict(zip(headers, row))) 
if row[0] == 'Zimbabwe': 
break 


pprint.pprint(final_data) 
@ 如 果 这 一 行 有 first_name， 那 么 在 该 行内 将 国名 合并 。 
四 将 first_name 重新 设置 为 False， 这 样 下 一 次 授 代 可 以 正常 运行 。 
现在 数据 导入 工作 已 全 部 完成 。 如 果 你 希望 数据 结构 与 从 Excel 导入 的 数据 完全 相同 ， 需 
要 对 数据 做 进一步 处 理 ， 但 我 们 已 经 可 以 将 PDF 中 的 数据 保存 成 行 数 据 。 


pdftables 已 经 不 再 受到 积极 的 支持 ， 它 的 开发 者 现在 提供 替代 的 新 产品 ， 
但 却 是 收费 的 (https://pdftables.com/)。 依 赖 不 受 支 持 的 代码 是 很 危险 的 ， 我 
们 也 不 能 认为 pdftables 总 是 可 用 *。 但 是 ,开源 社区 的 一 部 分 内 容 就 是 回馈 ， 
所 以 我 们 鼓励 你 找到 好 项 目 ， 为 它 做 贡献 ， 帮 它 宣 传 ， 希望 像 pdftables 这 
样 的 项 目 能 够 保持 开源 ， 能 够 继续 成 长 并 发 展 。 















































下 面 ， 我 们 来 看 一 下 解析 PDF 数据 的 其 他 方法 ， 其 中 包括 手动 清洗 数据 。 

5.4.2 练习: 手动 清洗 数据 

我 们 来 聊 一 聊 一 个 大 家 闭口 不 谈 却 确实 存在 的 事实 。 阅 读本 章 的 过 程 中 ， 你 可 能 一 直 想 知 
道 ， 我 们 为 什么 不 修改 PDF 文本 文件 ， 这 样 处 理 起 来 会 更 方便 。 你 可 以 这 么 做 ， 这 是 解决 
问题 的 众多 方法 之 一 。 但 我 们 希望 你 能 挑战 一 下 ， 用 Python 工具 处 理 这 个 文件 。 你 也 不 是 
每 次 都 能 手动 修改 PDF 文件 。 

如 果 在 处 理 PDF 或 其 他 文件 类 型 时 遇 到 了 困难 ， 一 种 按部就班 的 方法 是 将 数据 提取 到 文 
本 文件 ， 然 后 手动 处 理 数 据 。 在 这 种 情况 下 ， 提 前 预 估 一 下 你 愿意 在 手动 处 理 上 花费 的 时 
间 ， 然 后 将 实际 花费 的 时 间 控 制 在 这 个 范围 内 。 

想 了 解数 据 清洗 自动 化 的 更 多 内 容 ， 请 查阅 第 8 章 。 


5.4.3 练习: 试用 另 一 种 工具 


当 最 开始 寻找 用 来 解析 PDF 的 Python 库 时 ， 我 们 在 网 络 上 搜索 其 他 人 如 何 完成 这 个 任务 ， 
并 找到 了 stLate， 它 看 起 来 很 好 用 ， 但 需要 一 些 自 定义 代码 。 




































































注 3: 似乎 的 确 有 人 在 维护 并 支持 一 些 活跃 的 GitHub 分 支 (https://github.com/drj11/pdftables/network)。 我 们 
建议 你 关注 这 些 仓 库 的 动态 ， 以 满足 PDF 表格 解析 的 需求 。 
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想 了 解 还 有 哪些 可 用 的 工具 ， 我 们 试 着 搜索 “extracting tables from pdf”( 从 pdf 中 提 
取 表 格 ) ， 而 不 是 搜索 “parsing pdf python”( 解 析 pdf python)， 这 样 可 以 找到 针对 表格 
问题 的 解决 方法 (其 中 有 一 篇 博客 文章 对 儿 种 工具 做 了 对 比 ，http://www.interhacktives. 
com/2014/03/12/extract-data-pdf/) 。 


对 于 像 我 们 要 解析 的 这 种 小 型 PDF， 我 们 可 以 使 用 Tabula (http://tabula.technology/)。 
Tabula 不 一 定 总 能 解决 问题 ， 但 它 有 一 些 很 好 的 功能 。 
Tabula 的 使 用 方法 如 下 。 


(1) 下 载 Tabula (http://tabula.technology/)。 

(2) 双击 启动 应 用 ， 这 会 在 浏览 器 中 打开 Tabula 工具 。 

(3) 上 传 童工 PDF 文件 。 

从 这 里 开始 ， 你 需要 修改 Tabula 选择 抓 取 的 内 容 。 跳 过 标题 行 可 以 让 Tabula 找到 每 一 页 
的 数据 并 自动 高 亮 ， 方便 后 续 提 取 。 首 先 ， 选 择 你 感 兴趣 的 表格 ( 见 图 5-3)。 








”使 用 方法 ， 在 PDF 页 面 内 用 矩形 选 x 
” 择 想 要 的 表格 。 就 是 这 么 简单 ! 


”提示 : 表格 标题 ( 仍 ) 有 问题 。 尽 
” 量 不 要 在 选择 框 中 包含 标题 。 








i HH 
EB 
加 








Hr 
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图 5-3: 在 Tabula 中 选 
接 下 来 ， 下 载 数据 〈 见 图 5-4) 。 
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Extracted tabular data 


49 75 79 71 


|s | | | 
Copy to Clipboard Download CSV 
X% Advanced Options: Extraction Method: Download Data As... ~ 

















5-4: Tabula 的 下 载 界 面 


点 击 “Download CSV” (下 载 CSV 文件 ) ， 你 会 得 到 类 似 图 5-5 中 的 数据 。 








12 14 9| 0 10 99|- - |- | 36 30 75 78| 71 
5y 6y 4y 0 ?| 99|- 三 眶 民 68 88 89 87 
区 二 全 - = 100v |- 二 > = 党 = 二 et 
24 X 22% 25 x = |36 X 一 = = 一 一 过 = 
7y |8y 5y = 0 汉 = 一 = 
4 5 3 0 7 100- - 本 20 9 70 72 67 
区 > 丘 lo0v |- = es = 区 = = = 
- - - 攻 1l00v |- - E 昌 - - - 
7y 8y 5y 1 12 94|- = = 58 49 75 79 71 
5 6x 3 慰 = 二 元 和 二 去 二 能 
13 18 3| 29 65 31|- |- 攻 33y |- |- 
1 1 2 0 3100y |- 四 四 4 465y 67y |62y 
= 二 = = 100v |- 本 - = 芭 = 
6 7 5 3 26 95|- - E 9 71 71 70 
46 47 45 8 34 80 13|2y 1 14 47|- 三 











5-5: 提取 的 CSV 数据 


得 到 的 数据 并 不 完美 ， 但 比 我 们 用 pdfminer 得 到 的 数据 更 干净 。 

接 下 来 的 挑战 是 ， 解 析 Tabula 创建 的 CSV 文件。 这 与 我 们 解析 过 的 其 他 CSV ( 见 第 3 
章 ) 有 所 不 同 ， 要 更 杂乱 一 些 。 如 果 你 遇 到 困难 ， 可 以 先 放 在 一 边 ， 等 读 完 第 7 章 再 回来 
解决 它 。 
























































i by Pa 

5.5 不 常见 的 文件 类 型 

目前 为 止 ， 本 书 已 经 讲 过 CSV、JSON、XML、Excel 和 PDF 文件 。PDF 中 的 数据 很 难 解 
析 ， 你 可 能 认为 数据 解析 的 世界 不 能 比 这 更 糟 了 。 遗 憾 的 是 ， 还 有 比 这 更 糟糕 的 事情 。 
好 消息 是 ， 你 可 能 不 会 遇 到 前 人 尚未 解决 的 问题 。 记 住 ， 向 Python 社区 或 更 高 一 级 的 开源 
社区 寻求 帮助 和 建议 ， 这 永远 都 是 一 个 好 方法 ， 即 使 你 已 经 认识 到 应 该 寻找 更 容易 解析 的 
数据 集 。 

如 果 数 据 具 有 以 下 特征 ， 你 可 能 会 遇 到 问题 。 


。 文件 由 旧 系 统 生 成 ,使 用 的 是 一 种 不 常见 的 文件 类 型 。 
。 文件 由 专用 系统 (proprietary system) 生成 。 
。 你 所 有 的 程序 都 无 法 打开 该 文件 。 


对 于 与 不 常见 文件 类 型 相关 的 问题 ， 仅 仅 用 你 之 前 学 过 的 知识 就 可 以 解决 。 


(1) 确定 文件 类 型 。 如 果 从 文件 扩展 名 上 不 容易 看 出 ， 那 么 可 以 用 python-magic 库 (https:// 
pypi.python.org/pypi/python-magic/0.4.6)。 

(2) 在 互联 网 上 搜索 “how to parse <file extension> in Python”( 用 Python 如 何 解析 < 文件 扩 
展 名 >)， 将 “<file extension>” 赫 换 为 实际 的 文件 扩展 名 。 

(3) 如 果 找 不 到 显而易见 的 解决 方法 ， 尝 试用 文本 编辑 器 打开 该 文件 ， 或 者 用 Python 的 
open 函数 读 取 该 文件 。 

(4) 如 果 字 符 看 起 来 很 奇怪 ， 读 一 些 关 于 Python 编码 的 内 容 。 如 果 你 是 第 一 次 接触 Python 
字符 编码 ， 可 以 观看 PyCon 2014 的 演讲 “Python 中 的 字符 编码 和 Unicode” (https:/ 
www.youtube.com/watch?v=Mx70n1dL534) 6 


5.6 小结 


PDF 以 及 其 他 难以 解析 的 格式 ， 是 你 会 遇 到 的 最 糟糕 的 格式 。 如 果 你 找到 这 些 格 式 的 数 
据 ， 应 该 做 的 第 一 件 事 就 是 看 能 否 找 到 其 他 格式 的 数据 。 对 于 我 们 的 例子 来 说 ， 我 们 从 
CSYV 格式 得 到 的 数据 更 为 精确 ， 因 为 PDF 表格 中 的 数字 是 经 过 四 舍 五 入 的 。 越 是 原始 的 
数据 格式 ， 数 据 可 能 就 越 精确 ， 用 代码 解析 也 越 容 易 。 


如 果 找 不 到 其 他 格式 的 数据 ， 那 你 应 该 尝试 以 下 步骤 。 


(1) 确定 数据 类 型 。 

(2) 在 互联 网 上 搜索 其 他 人 解决 问题 的 方法 。 有 没有 帮助 导入 数据 的 工具 ? 
(3) 赁 直觉 选择 你 要 用 的 工具 。 如 果 是 Python， 选 择 你 认为 最 合适 的 库 。 
(4) 尝试 将 数据 转换 成 更 容易 使 用 的 格式 。 


表 5-1 列 出 了 我 们 在 本 章 学 过 的 库 和 工具 。 










































































处 理 PDF 文 件 ， 以 及 用 Python 解决 问题 | 101 


表 5-1: 新 的 Python 库 和 工具 

































































库 或 工具 作用 

slate 每 次 运行 脚本 时 ， 都 将 PDF 解析 为 内 存 里 的 一 个 字符 串 

pdfminer 将 PDF 转换 为 文本 ， 这 样 你 就 可 以 解析 文本 文件 

pdftables 首先 用 pdfminer 将 PDF 解析 成 文本 ， 然 后 党 试 寻找 表格 ， 并 将 每 一 行内 容 对 齐 

Tabula 提供 操作 界面 ， 可 以 将 PDF 数据 提取 成 CSV 格式 

除了 上 面 这 些 新 工具 ， 我 们 还 学 习 了 Python 编程 的 一 些 新 概念 ， 表 5-2 对 这 些 新 概念 做 了 
汇总 。 

表 5-2: Python 编程 新 概念 

概念 作用 





转 义 字符 (http:Wlearnpythonthehardway. 
org/book/ex10.html) 


\n 

elif (https://docs.python.org/2/tutorial/ 
controlflow.htm!l) 

函数 (https://docs.python.org/2/tutorial/ 
controlflow.html#defining-functions ) 

zip (https://docs.python.org/2.7/library/ 
functions.html#zip) 

元 组 (https://docs.python.org/2.7/library/ 
functions.html#tuple) 

dict 转换 (https://docs.python.org/2.7/ 
library/functions.html#func-dict) 


转 义 字符 告诉 计算 机 ， 文 件 路 径 或 文件 名 中 有 一 个 空格 或 特殊 字 





符 ， 告 知 方式 是 在 其 前 面 加 一 个 反 斜 线 
前 加 \ 将 其 转 义 
\n 是 文件 中 行 尾 或 新 行 的 标志 














(\)。 一 种 用 法 是 在 空格 








在 写 if-else 语句 的 过 程 中 ,我们 可 以 添加 额外 的 条 件 再 次 测试 : 





if.. .elif...elif...else 














Python 函数 用 来 执行 一 段 代码 。 将 可 复 


| 的 代码 写成 函数 ， 我 们 











可 以 避免 多 次 重复 


列表 





zip 是 Python 内 置 国 数 ， 将 两 个 可 迭代 对 象 转换 成 由 元 组 构成 的 





元 组 和 列表 类 似 ， 但 是 不 可 更 改 (immutable) ， 也 就 是 说 ， 不 能 





修改 元 组 。 想 修改 一 个 元 组 ， 需 要 将 其 保存 为 一 个 新 对 象 





dict 是 Python 


键 值 对 的 














式 ， 这 样 函数 才能 正常 运行 


内 置 函 数 ， 将 输入 转换 成 字典 。 输 入 数据 应 满足 


下 一 章 我 们 将 讨论 数据 获取 与 存储 。 这 样 我 们 就 能 了 解 关于 获取 其 他 数据 格式 的 更 多 内 
容 。 在 第 7 章 和 第 8 章 ， 我 们 会 讲 到 数据 清洗 ， 这 也 对 我 们 处 理 复杂 








的 PDF 有 所 帮助 。 





第 6 和 章 


数据 获取 与 存储 








找到 要 研究 的 第 一 个 数据 集 ， 可 能 是 向 回答 问题 这 一 目标 迈 出 的 最 重要 一 步 。 在 第 1 章 里 
我 们 说 过 ， 你 首先 应 该 花 点 时 间 将 问题 细 化 ， 让 问题 足够 具体 ， 能 够 找到 关于 问题 的 好 数 
据 ， 同 时 间 题 又 要 足够 宽泛 ， 可 以 让 你 和 其 他 人 都 感 兴 

另 一 种 可 能 是 ， 你 已 经 找到 了 感 兴趣 的 数据 集 ， 但 无 法 提出 令 人 信服 的 问题 。 如 果 你 不 了 
解 也 不 信任 数据 来 源 ， 应 该 花 点 时 间 调 查 一 下 。 问 问 你 自己 : 数据 是 否 有 效 ? 是 否 更 新 
过 ? 我 能 否 信任 当前 以 及 未 来 的 更 新 和 出 版 物 ? 

本 章 我 们 会 讲 到 ， 你 可 以 将 数据 保存 在 什么 地 方 ， 以 供 后 续 使 用 。 如 果 你 不 熟悉 数据 库 的 
话 ， 我 们 也 会 讲 到 数据 库 的 使 用 场景 和 使 用 方法 ， 并 演示 如 何 创建 简单 数据 库 来 存储 数 
据 。 如 果 你 已 经 很 熟悉 数据 库 ， 或 者 你 的 数据 源 就 是 一 个 数据 库 的 话 ， 我 们 会 讲 到 Python 
中 基本 的 数据 库 连 接 结 构 。 

如 果 你 还 没 决定 使 用 哪个 数据 集 的 话 ， 不 必 担 心 。 下 面 用 的 几 个 例子 ， 你 都 可 以 在 本 书 仓 
库 (https://github.com/jackiekazil/data-wrangling) 中 找到 。 


我 们 强烈 建议 你 带 着 儿 个 问题 阅读 本 书 ， 这 样 你 才能 更 好 地 在 实践 中 学 习 。 
这 些 问 题 可 能 是 你 一 直 想 研究 的 问题 ， 也 可 能 是 与 本 书 所 探索 数据 相关 的 问 
题 。 即 使 你 选取 的 问题 很 简单 ， 在 编写 代码 中 学 习 也 是 最 好 的 学 习 方 法 。 




































































6.1 并 非 所 有 数据 生 而 平等 


对 于 遇 到 的 每 一 个 数据 集 ， 尽 管 我 们 愿意 相信 其 真实 性 和 数据 质量 ， 但 并 非 所 有 数据 都 能 
符合 我 们 的 预期 。 即 使 是 你 目前 使 用 的 数据 集 ， 在 深入 研究 之 后 也 可 能 是 无 用 且 无 效 的 数 
据 源 。 对 于 你 面临 的 数据 处 理 问题 ， 在 寻求 自动 化 解决 方案 时 ， 你 会 发 现 Python 工具 可 
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以 帮 你 分 辨 好 数据 和 坏 数据 ， 还 可 以 帮 你 评价 数据 的 可 用 性 。 第 7 章 和 第 8 章 会 讲 到 用 
Python 做 数据 清洗 和 数据 探索 ， 第 14 章 会 讲 到 自动 化 ， 在 这 些 章节 里 我 们 都 会 介绍 关于 
这 些 工 具 的 更 多 内 容 。 

刚刚 得 到 新 数据 时 ， 我 们 建议 做 一 个 数据 气味 测试 ， 测 试 该 数据 是 否 是 可 靠 的 信息 源 ， 并 
决定 是 否 信任 该 数据 。 你 可 以 癌 问 自己 以 下 几 个 问题 。 

。 如 果 我 有 问题 或 疑虑 的 话 ， 能 够 联系 上 作者 本 人 吗 ? 

。 数据 是 否定 期 检查 错误 并 更 新 ? 

。 数据 里 是 否 包含 数据 获取 方法 的 信息 ， 是 否 包 含 数据 获取 过 程 中 使 用 的 样本 类 型 ? 

。 有 没有 其 他 数据 源 可 以 验证 这 个 数据 集 ? 

。 根据 我 对 这 个 话题 了 解 的 所 有 知识 ， 数 据 看 起 来 是 否 可 信 ? 

如 果 你 对 至 少 三 个 问题 的 回答 都 是 “是 ”， 这 说 明 你 走 对 路 了 ! 如 果 至 少 对 两 个 问题 的 回 
答 是 “ 否 “， 你 可 能 需要 花 更 多 时 间 寻 找 可 靠 的 数据 。 




















你 可 能 需要 联系 最 初 采集 数据 并 发 布 的 作者 或 机 构 ， 以 寻求 更 多 信息 。 通 常 
情况 下 ， 给 合适 的 人 打 电 话 或 发 电子 邮件 ， 可 以 帮 你 回答 上 面 至 少 一 个 问 
题 ， 并 验证 数据 源 的 可 靠 性 。 


6.2 ”真实 性 核查 


为 保证 报告 的 可 信 ， 对 你 的 数据 做 真实 性 核查 是 非常 重要 的 ， 尽管 有 时 可 能 既 烦 人 又 累 
人 。 根 据 数 据 集 的 不 同情 况 ， 真 实 性 核查 可 能 包括 以 下 内 容 。 


。 联系 数据 源 ， 核 实 最 新 的 方法 和 版 本 。 

。 找到 其 他 好 的 数据 源 作对 照 。 

。 联系 专家 ， 探 讨好 的 数据 源 和 真实 信息 。 

。 进一步 研究 你 选 定 的 主题 ， 检 查 你 的 数据 源 和 /或 数据 集 是 否 可 信 。 
有 些 图 书馆 和 大 学 可 以 访问 只 对 订阅 用 户 开放 的 出 版 物 和 教育 档案 ， 它 们 是 真实 性 核查 的 
重要 资源 。 如 果 可 以 访问 类 似 LexisNexis (http:Wlexisnexis.com/) 、 国 会 季刊 新 闻 库 (http:// 
library.cqpress.com/) 、JSTOR (http://jstor.org/)、 康 奈 尔 大 学 的 arXiv 项 目 (http://arxiv. 
org/) 和 谷歌 学 术 搜 索 (http://scholar.google.com/) 这 样 的 工具 ， 你 可 以 看 一 下 其 他 人 对 你 
的 主题 已 经 做 了 哪些 研究 及 研究 成 果 。 

谷歌 搜索 也 可 以 在 真实 性 核查 方面 提供 帮助 。 如 果 某 人 宣称 数据 来 自 于 公开 发 布 的 来 源 ， 
那么 有 可 能 其 他 人 已 经 对 这 一 说 法 做 过 真实 性 核查 ， 或 者 已 经 证 实 了 这 一 说 法 。 同 样 ， 在 
评价 网 上 发 布 的 内 容 时 ， 你 需要 自己 仔细 其 酌 。 数 据 产 是 否 真实 ?论证 能 否 令 人 信服 ， 是 
否 有 意义 ? 证 据 是 否 有 效 ? 对 这 些 问 题 的 回答 要 做 综合 评价 。 


政府 部 门 拥有 大 量 的 数据 集 。 如 果 想 研究 本 地 城市 、 州 或 国家 的 某 一 现象 ， 
通常 你 可 以 通过 电话 或 电子 邮件 找到 某 个 人 ， 他 手头 有 很 有 用 的 数据 集 。 全 
球 人 口 普查 局 会 定期 发 布 普查 数据 ， 如 果 你 纠结 于 想 要 回答 什么 问题 ， 可 以 
从 这 些 数 据 开 始 。 


















































对 第 一 个 数据 集 做 过 验证 和 真实 性 核查 之 后 ， 以 后 编写 脚本 验证 数据 有 效 性 就 会 容易 很 多 。 
你 甚至 可 以 用 在 本 书 中 学 到 的 技巧 (特别 是 第 14 章 的 内 容 ) 创建 脚本 来 自动 更 新 数据 。 


6.3 ”数据 可 读 性 、 数 据 清洁 度 和 数据 寿命 


如 果 你 的 数据 集 看 起 来 非常 难以 读 取 ， 还 有 一 种 可 能 的 方法 : 根据 第 7 章 学 习 的 内 容 ， 你 
可 以 用 代码 清洗 数据 。 幸 运 的 是 ， 如 果 是 计算 机 创建 的 数据 ， 很 有 可 能 可 以 被 计算 机 读 
取 。 更 大 的 难点 在 于 ， 从 “真实 生活 ”中 获取 数据 并 读 入 计算 机 。 在 第 5 章 中 我 们 知道 ， 
PDF 和 不 常见 的 数据 文件 类 型 很 难处 理 ， 但 并 非 不 可 能 。 


我 们 可 以 用 Python 帮 我 们 读 取 难以 读 取 的 数据 ， 但 难以 读 取 可 能 意味 着 数据 来 源 不 佳 。 如 
果 是 计算 机 生成 的 大 型 数据 集 ， 那 就 存在 一 个 问题 一 一 数据 库 转 储 (database dump) 的 格 
式 一 直 都 不 美观 。 但 如 果 你 的 数据 是 人 工 生 成 的 ， 而 且 难 以 读 取 ， 那 可 能 是 数据 清洁 度 和 
数据 有 效 性 的 问题 。 

你 面临 的 另 一 个 问题 是 ， 数 据 是 否 已 经 被 清洗 过 了 。 通 过 详细 询问 数据 是 如 何 采集 、 报 告 
并 更 新 的 ， 你 可 以 判断 数据 是 否 被 清洗 过 。 你 应 该 能 够 确定 以 下 内 容 。 

。 数据 的 清洁 度 有 多 高 ? 

。 是 否 有 人 给 出 了 统计 误差 率 ， 或 者 修改 了 错误 的 数据 条 目 ， 或 者 误 报 了 数据 ? 

。 是 否 会 发 布 进一步 更 新 ， 这 些 更 新 是 否 会 发 送 给 你 ? 

。 数据 采集 过 程 中 使 用 了 哪些 方法 ， 如 何 验证 这 些 方法 ? 


如 果 你 的 数据 源 使 用 的 是 标准 化 的 、 严 谨 的 研究 和 采集 方法 ， 在 未 来 的 儿 年 
里 ， 你 的 清洗 脚本 和 报告 脚本 可 能 几乎 不 用 修改 就 可 以 重复 使 用 。 那 些 系 统 
通常 不 会 定期 发 生变 化 〈 变 化 既 费 钱 又 费时 )。 一 旦 写 好 了 清洗 脚本 ， 你 可 
以 轻松 处 理 下 一 年 的 数据 ， 直 接 进 入 数据 分 析 阶 段 。 

































































































































































除了 清洁 度 和 可 读 性 ， 你 还 要 关注 数据 的 寿命 。 你 要 处 理 的 数据 是 定期 采集 并 更 新 的 吗 ? 
数据 发 布 和 更 新 的 时 间 计 划 是 什么 样 的 ?了 解 一 个 机 构 更 新 数据 的 频率 ， 可 以 让 你 判断 在 
未 来 几 年 内 对 该 数据 的 应 用 能 


6.4 寻找 数据 


就 像 验 证 数据 源 或 编写 PDF 解析 器 脚本 有 不 止 一 种 方法 一 样 ， 寻 找 数据 也 有 很 多 种 方法 。 
本 市 会 讲 到 你 在 线 上 和 线 下 都 可 以 使 用 的 方法 。 


6.4.1 打 电 话 

观察 数据 文件 ， 并 思考 一 个 问题 : 数据 是 怎么 变 成 现在 这 种 格式 的 ?通常 来 说 ， 像 Excel、 
PDF 甚至 Word 这 样 的 文件 类 型 都 是 人 工 处 理 的 ， 这 个 人 从 数据 源 处 获取 数据 。 

如 果 你 找到 了 采集 数据 的 那个 人 ， 或 许可 以 要 到 原始 数据 。 原 始 数据 可 能 是 易于 解析 的 文件 
格式 ， 如 CSV 或 数据 库 。 你 找到 的 那个 人 还 可 以 回答 关于 采集 方法 和 更 新 时 间 线 的 问题 。 
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下 面 给 出 从 数据 文件 中 找 人 的 一 些 技巧 。 

。 在 文件 中 搜索 联系 人 信息 。 

。 寻找 署名 一 一 如 果 没 有 人 名 ， 那 就 寻找 机 构 名 。 

。 在 网 络 上 搜索 文档 的 文件 名 和 标题 。 

。 右键 单 击 文件 ,在 Windows 上 选择 “属性 "(在 Mac 上 选择 “显示 简介 ”) ,查看 文件 元 数据 。 


去 联系 你 能 找到 的 每 一 个 人 。 如 果 他 不 是 创建 文件 的 人 ， 可 以 问 他 知 不 知道 是 谁 创 建 的 文 












































件 。 不 要 害羞 一 一 你 对 他 们 的 研究 课题 和 工作 感 兴趣 ， 就 是 对 他 们 的 蕉 维 ， 他 们 会 很 乐意 
帮助 你 的 。 

与 通信 官 打交道 
如 果 你 遇 到 这 种 情况 一 一 发 布 文件 的 机 构 项 望 你 能 和 他 们 的 通信 代表 谈 一 谈 一 一 这 意 





味 着 时 间 可 能 会 抑 得 很 长 。 还 记得 一 个 叫 作 打 电话 的 游戏 吗 : 第 一 个 人 跟 另 一 个 人 说 
了 些 什么 ， 另 一 个 人 将 所 听 到 的 内 容 复 述 给 下 一 个 人 ， 如 此 这 般 ， 最 后 一 个 人 的 话 已 
经 与 第 一 个 人 大 相 径 庭 ? 


要 保证 有 效 沟通 ， 你 可 以 做 这 两 件 事情 。 第 一 ， 努 力 建立 信任 。 如 果 没 有 利益 冲突 ， 
你 可 以 分 享 你 感 兴趣 的 工作 ， 并 承诺 会 将 该 机 构 列 为 数据 源 。 这 表示 你 会 间接 宣传 他 
们 的 工作 ， 该 机 构 也 会 在 分 享 资 料 方 面 受 到 好 评 。 第 二 ， 请 求 通信 代表 召开 电话 会 议 
或 有 监督 的 讨论 。 通 过 电话 而 不 是 电子 邮件 沟通 ， 你 可 以 及 时 准确 地 得 到 问题 的 回答 。 














找到 了 要 联系 的 人 之 后 ， 党 试用 电话 联系 他 ， 或 者 亲自 拜访 。 电 子 邮 件 很 容易 引起 误会 ， 
通常 时 间 也 会 拖 得 比较 长 。 下 面 给 出 几 个 问题 的 例子 ， 可 以 帮 你 思考 要 问 什 么 样 的 问题 。 
。 你 是 如 何 获取 第 6 页 到 第 200 页 的 数据 的 ? 

。 是 否 有 其 他 格式 的 数据 ， 比 如 JSON、CSV、XML 或 数据 库 ? 

。 数据 是 如 何 采 集 的 ? 

。 能 否 描 述 一 下 数据 采集 的 方法 ? 

。 这 些 缩写 是 什么 意思 ? 

。 数据 是 否 会 更 新 ?如 何 更 新 ? 何 时 更 新 ? 

。 是 否 有 其 他 人 能 提供 更 多 信息 ? 

在 等 待 回答 的 同时 ， 你 也 可 以 开始 做 数据 探索 ， 这 取决 于 项 目的 时 间 限 制 和 目标 。 


6.4.2 ”美国 政府 数据 


如 果 你 对 研究 美国 的 现象 感 兴趣 ， 奥 巴 马 政府 最 近 正 在 推行 发 布 易于 获取 的 在 线 数据 ， 可 
以 很 容易 找到 政府 机 构 的 定期 报告 。 快 速 浏览 一 下 Data.gov 网 站 ， 你 就 会 发 现 暴 十 数据 
( http:Wcatalog.data.gov/datasetncdc-storm-events-database) 、 毕 业 率 和 辍学 率 ( http://catalog. 
data.gov/dataset/edfacts-graduates-and-dropouts-201112)、 濒 危 物种 数据 (http://catalog.data. 
gov/dataset/density-of-threatened-and-endangered-species)、 犯罪 统 计 (https://catalog.data. 
gov/dataset/total-crime-index-for-the-nations-largest-cities-3alaa) 以 及 其 他 有 趣 的 数据 集 。 


除了 联邦 数据 ， 州 政府 和 地 方 政府 也 都 有 发 布 数据 的 网 站 ， 下 面 我 们 列 出 了 其 中 几 个 : 
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教育 数据 (http://datainventory.ed.gov/InventoryList) 

选举 结果 (http://www.fec.gov/pubrec/electionresults.shtml) 
人 口 普查 数据 (http://census.ire.org/) 

环境 数据 (https://www.epa.gov/enviro/about-data) 

劳工 统计 数据 (http://www.bls.gov/) 


如 果 在 公开 发 布 的 信息 里 找 不 到 你 想 要 的 ， 不 要 犹 浅 ， 直 接 给 相应 部 门 打 电话 ， 在 电话 里 
请 求 提供 数据 。 许 多 政府 部 门 都 有 实习 生 或 工作 人 员 负 责 处 理 公众 获取 信息 的 请 求 。 














言 息 自 由 法 案 介 绍 
在 美国 ， 你 可 以 向 任意 地 方 、 州 或 联邦 的 政府 机 关 提 交 信 息 自 由 法 案 (FOIA) 申请 。 
申请 应 简单 明了 。 根 据 你 请 求 的 信息 内 容 以 及 描述 的 详细 程度 ， 需 要 用 的 时 间 可 能 会 
有 很 大 不 同 。 


美国 政府 建立 了 FOIA 网 站 (https://foiaonline.regulations.gov/foia/action/public/home)， 
你 可 以 在 上 面向 特定 部 门 提交 申请 并 追踪 ， 但 大 部 分 政府 机 构 都 有 在 自己 的 网 站 上 如 
何 提交 FOIA 申请 的 说 明 。 你 应 该 在 申请 中 给 出 联系 信息 ， 描 述 你 要 找 的 数据 记录 ， 
以 及 如 果 有 复印 费 的 话 你 愿意 交 多 少 钱 。 


好 的 做 法 是 ， 尽 可 能 详细 描述 你 要 找 的 数据 记录 ， 但 又 不 过 分 限制 搜索 的 范围 。 你 可 
以 这 么 想 ， 搜 索 范 围 太 宽泛 ， 网 站 会 返回 数 百 万 条 记录 (你 需要 手动 挑选 ， 可 能 还 要 
付费 )。 另 一 方面 ， 如 果 搜 索 过 于 具体 ， 你 可 能 会 漏 掉 与 话题 密切 相关 的 记录 。 当 然 
了 ， 根 据 你 第 一 次 申请 找到 的 信息 ， 你 总 可 以 提交 更 多 的 FOIA 申请 。 搜 索 过 程 也 很 
意思 ， 不 是 么 ? 

如 果 你 想 要 的 是 美国 之 外 政府 和 机 构 的 信息 ， 维 基 百 科 给 出 了 世界 各 国信 息 自由 法 律 
的 列表 (https://en.wikipedia.org/wiki/Freedom_of_information_laws_by_country)。 想 了 解 
关于 美国 FOIA 的 更 多 内 容 ， 可 参阅 电子 前 沿 基 金 会 (Electronic Frontier Foundation) 
的 建议 (https://www.eff.org/issues/transparency/foia-how-to)。 








6.4.3 全球 政府 和 城市 开放 数据 

获取 政府 数据 有 很 多 种 方法 ， 这 取决 于 你 想 研究 的 国家 ， 以 及 你 是 否 生活 在 那个 国家 。 由 
于 我 们 更 熟悉 美国 的 政策 ， 所 以 我 们 不 会 宣称 这 是 一 份 全 面 的 清单 。 如 果 你 想 要 分 享 本 书 
没有 提 到 而 又 很 有 用 的 开放 数据 ， 请 随时 和 我 们 联系 ! 


我 们 建议 对 政府 数据 集 也 要 做 真实 性 核查 ,特别 是 对 有 侵犯 人 权 历 史 的 政府 
更 要 仔细 核查 。 将 所 有 的 判断 力 用 到 所 有 数据 上 ， 果 断 给 联系 人 打 电 话 或 发 
邮件 ， 进 一 步 咨 询 数 据 的 采集 方法 。 











1. 欧盟 和 英国 
如 果 你 对 欧盟 或 英国 的 数据 感 兴 趣 ， 可 以 找到 许多 数据 门户 网 站 。 下 面 一 些 网 站 是 由 一 些 
机 构 和 开放 数据 爱好 者 创建 的 ， 如 果 你 想 寻 找 特 定 的 数据 集 ， 可 以 和 网 站 所 有 者 直接 联系 。 
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。 欧盟 开放 数据 (http://publicdata.eu/) 

。 欧罗巴 开放 数据 (http://open-data.europa.eu/) 

。 全 天 开放 关联 数据 (http://latc-project.eu/) 

。 英国 政府 数据 (https://data.gov.uk/) 

2. 非洲 

如 果 你 对 非洲 国家 的 数据 感 兴趣 ， 有 许多 项 目 正 在 采集 数据 并 构建 API， 供 开发 人 员 使 用 。 
许多 非洲 国家 也 有 自己 的 开放 数据 门户 网 站 (用 谷歌 一 搜 就 可 以 找到 )。 我 们 挑 出 了 一 些 
有 用 的 区 域 性 项 目 : 


。 非洲 开放 数据 (https://africaopendata.org/) 

。 南非 代码 (http://code4sa.org/) 

非洲 代码 (https://codeforafrica.org/) 

非洲 的 开放 数据 (http://opendataforafrica.org/) 

3. 亚洲 

如 果 你 对 亚洲 国家 和 地 区 的 数据 感 兴趣 ， 它 们 大 多 数 都 有 自己 的 开放 数据 网 站 。 我 们 找 出 
了 几 个 令 人 印象 深刻 的 数据 集 ， 以 及 一 些 机 构 发 布 的 区 域 性 数据 : 
。 开放 城市 项 目 (http://www.opencitiesproject.org/) 

。 开放 尼泊尔 (http://data.opennepal.net/) 

。 中 国 国 家 统计 局 (http://www.stats.gov.cn/english/) 

。 香港 开放 数据 (https://opendatahk.com/) 

。 印尼 政府 开放 数据 (http:Wdata.go.id/) 


4. 欧盟 以 外 的 欧洲 、 中 亚 、 印 度 、 中 东 和 俄罗斯 

在 欧盟 之 外 ， 许 多 中 亚 、 中 欧 和 中 东 的 国家 也 有 自己 的 政府 开放 数据 网 站 。 我 们 给 出 了 其 
中 一 些 网 站 ， 但 如 果 你 知道 你 想 研 究 的 国家 和 地 区 并 希望 用 母语 来 访问 相关 数据 ， 语 言 技 
能 是 最 重要 的 (谷歌 Chrome 浏览 器 会 尝试 自动 翻译 网 页 ， 所 以 即使 语言 不 通 也 可 以 找到 
有 用 的 数据 ) 。 

。 俄罗斯 政府 数据 网 站 (http://data.gov.ru/) 

。 PakReport 巴基斯坦 开放 数据 和 地 图 (http://pakreport.org/) 

。 印度 开放 数据 (https://data.gov.in/) 

。 土耳其 开放 统计 数据 (http://www.turkstat.gov.tr/Start.do) 


5. 南美 和 加 拿 大 

许多 南美 国家 都 有 自己 的 开放 数据 网 站 ， 通 过 搜索 很 容易 找到 。 加 拿 大 也 有 针对 统计 数据 
的 开放 数据 门户 网 站 。 我 们 给 出 了 其 中 一 些 网 站 ， 同 时 建议 你 去 网 上 搜索 ， 寻 找 你 感 兴 
的 特定 部 门 或 政府 。 

。 加 拿 大 统计 数据 (http:/www.rdc-cdr.ca/datasets-and-surveys) 

。 加 拿 大 开放 数据 (http://open.canada.ca/en) 

。 巴西 开放 数据 (http://dados.gov.br/) 

。 墨西哥 开放 数据 (http://datos.gob.mx/) 



























































。 拉丁 美洲 开放 数据 (http:/www.opendatalatinoamerica.org/) 
。 发 展 中 的 加 勒 比 地 区 (https:/www.developingcaribbean.org/#/ ) 


6.4.4 组 织 数据 和 非 政 府 组 织 数据 

无 论 是 地 方 组 织 还 是 国际 组 织 ， 都 有 大 量 跨 州 或 跨国 的 数据 集资 源 ， 比 如 气候 变化 数据 、 
国际 商贸 数据 和 全 球 运输 数据 。 如 果 政 府 并 没有 采集 与 你 的 主题 相关 的 数据 (关于 宗教 细 
节 、 吸 毒 、 社 区 支持 网 络 等 的 数据 ) ， 或 者 政府 数据 不 可 靠 ， 或 者 政府 没有 开放 数据 门户 
网 站 的 话 ， 你 可 以 通过 NGO 或 开放 数据 组 织 找到 相关 数据 。 下 面 列 出 了 一 些 组 织 ， 但 还 
有 更 多 的 组 织 在 为 数据 的 公开 交换 和 访问 而 奋斗 。 


。 联合 国 开放 数据 (http://data.un.org/) 

。 联合 国 发 展 计 划 署 数据 (http://open.undp.org/) 

。 开放 知识 基金 会 (https://okfn.org/) 

。 世界 银行 数据 (http://data.worldbank.org/) 

。 维基 解密 (https://wikileaks.org/) 

。 国际 援助 透明 度数 据 集 (http://www .iatiregistry.org/) 
。 DataHub (https://datahub.io/) 

。 人 口 资料 局 (http://www.prb.org/DataFinder.aspx) 


6.4.5 教育 数据 和 大 学 数据 

世界 各 地 的 大 学 和 研究 生 部 都 在 不 断 地 研究 并 发 布 数据 集 ， 从 生物 科学 的 进展 到 本 土 文化 
与 周边 生态 栖息 地 的 关联 性 ， 涵 盖 范 围 很 广 。 很 难 想象 教育 领域 还 没有 讨论 过 某 一 主题 ， 
所 以 大 学 是 获取 最 新 专题 数据 的 好 去 处 。 大 多 数 研究 者 都 乐于 听 到 有 人 对 他 们 的 课题 感 兴 
趣 ， 所 以 我 们 建议 你 直接 联系 合适 的 部 门 或 作者 ， 以 获取 更 多 信息 。 如 果 你 不 知道 从 哪里 
开始 ， 下 面 有 几 个 不 错 的 选择 。 

。 Lexis Nexis (http://www.lexisnexis.com/) 

。 谷歌 学 术 搜 索 (https://scholar.google.com/) 

。 康 奈 尔 大 学 arXiv 项 目 (http://arxiv.org/) 

。 UCI 机 器 学 习 数 据 集 (http://archive.ics.uci.edu/ml/) 

。 通用 数据 集 倡议 (http://www.commondataset.org/) 


6.4.6 ”医学 数据 和 科学 数据 

与 大 学 类 似 ， 科 学 和 医学 研究 部 门 和 组 织 也 都 拥有 大 量 优质 的 数据 资源 。 在 科学 研究 中 搜 
索 是 十 分 困难 的 ， 但 不 要 气 馒 一 一 如 果 你 能 找到 用 于 研究 的 数据 集 ， 它 们 使 用 的 研究 术语 
往往 并 不 相同 。 如 果 你 想到 某 一 个 特定 的 研究 者 ， 我 们 建议 直接 联系 他 。 下 面 列 出 了 一 些 
汇总 的 数据 集 : 

。 开放 科学 数据 云 (https://www.opensciencedatacloud.org/publicdata/) 

。 开放 科学 目录 (http://www.opensciencedirectory.net/) 

。 世界 卫生 组 织 数 据 (http://www.who.int/gho/database/en/) 
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。 Broad 研究 所 开放 数据 (http://www.broadinstitute.org/scientific-community/data) 
。 人 类 连接 组 项 目 (神经 通路 映射 ) (http://www.humanconnectomeproject.org/) 
。 UNC 精神 病 基因 组 协会 (http://www.med.unc.edu/pgc/) 

。 社会 科学 数据 集 (http://3stages.org/idata/) 

。 CDC 医学 数据 (http://www.cdc.gov/nchs/fastats/) 


6.4.7 ” 众 包 数据 和 API 


如 果 你 的 想 蒜 或 问题 更 适合 众 包 ， 则 可 以 利用 互联 网 及 大 量 的 论坛 、 服 务 和 社交 媒体 来 创 
建 自己 的 问题 ， 并 用 数据 挖掘 方法 找到 这 些 问 题 的 答案 。 像 Twitter 和 Instagram 这 样 的 服 
务 拥 有 数 亿 用 户 ， 上 面 还 有 好 用 的 应 用 编程 接口 (API)。API 是 一 些 协议 或 工具 ， 人 允许 用 
软件 或 代码 与 男 一 个 系统 交互 。 在 我 们 的 例子 中 ， 我 们 使 用 的 一 般 是 基于 网 络 的 API， 可 
以 发 送 网 络 请 求 并 从 服务 中 获取 数据 。 一 般 来 说 ， 不 到 一 个 小 时 的 设置 ，API 访问 就 可 以 
获取 数 百 万 条 数据 记录 。 


在 第 13 章 我 们 会 更 深入 地 介绍 API， 现 在 ， 我 们 在 表 6-1 中 对 比 了 使 用 API 的 一 些 基 本 优 
点 和 缺点 。 
































表 6-1: 使 用 API 

优点 缺点 

即时 访问 可 用 的 数据 大 量 API 系统 不 可 靠 (选择 性 偏差) 
数据 量 很 大 数据 过 载 


你 不 必 担 心 存 储 问题 ， 你 可 从 服务 的 存储 中 访问 数据 。 ”可靠 性 问题 ， 依 赖 于 API 访问 限制 或 停机 时 间 


可 以 看 到 ，API 的 优点 和 缺点 各 占 一 半 。 如 果 找 到 一 个 你 想 用 的 API， 你 可 以 制定 一 些 规 
则 ， 规 定 如 何 使 用 API， 以 及 API 无 法 访问 时 应 该 怎么 做 〈 你 可 能 希望 把 响应 内 容 保存 在 
本 地 ， 避 免 遇 到 停机 问题 )。 长 时 间 对 响应 内 容 进 行 采集 ， 也 可 以 消除 研究 中 的 一 些 选择 
性 偏差 。 


除了 社交 网 络 服务 之 外 ， 还 有 许多 网 站 可 以 发 布 你 的 问题 和 想法 ， 以 寻求 众 包 回答 。 选 择 
与 话题 相关 的 专家 论坛 ， 还 是 自己 发 布 调查 并 利用 自己 的 频道 传播 ， 这 由 你 自己 决定 ， 但 
如 果 用 的 是 你 自己 的 研究 问题 和 方法 ， 你 一 定 要 对 样本 大 小 和 样本 误差 作出 解释 。 想 要 做 
附带 详细 引文 的 抽样 调查 ， 更 详细 的 介绍 内 容 可 优先 参考 威斯康星 大 学 的 调查 指南 (http:// 
oqi.wisc.edu/resourcelibrary/uploads/resources/Survey_Guide.pdf )。 

想 了 解 其 他 方面 的 众 包 数据 ， 可 查看 : 

。 盖 洛 普 民 意 调查 (http://www.gallup.com/) 

。 欧洲 社会 调查 (http://www.europeansocialsurvey.org/data) 

。 路 透 社民 意 调 查 (http://polling.reuters.com/) 

可 用 的 数据 量 是 巨大 的 ， 在 大 量 的 噪声 数据 中 ， 找 出 你 能 回答 的 问题 并 搞 清 楚 应 该 如 何 回 
答 这 些 问题 ， 可 不 是 一 件 容易 的 事情 。 下 面 我 们 讲 几 个 案例 研究 ， 让 你 更 好 地 了 解 如 何 寻 
找 数据 来 回答 自己 的 问题 。 



































6.5 ”案例 研究 : 数据 调查 实例 


我 们 将 简单 介绍 儿 个 不 同 的 兴趣 领域 和 问题 ， 这 样 你 可 以 知道 第 一 步 该 做 些 什么 。 


6.5.1 埃 博 拉 病 毒 危 机 


比方 说 ， 你 对 调查 西非 的 埃 博 拉 病 毒 危机 感 兴趣 。 你 会 怎么 开始 调查 ? 你 可 能 很 快 会 想到 
用 谷歌 搜索 “Ebola crisis data”( 埃 博 拉 病 毒 危 机 数据 )。 你 发 现 有 许多 国际 组 织 致力 于 追 
踪 病 毒 的 传播 ， 这 些 组 织 提供 了 许多 工具 ， 任 你 使 用 。 首 先 ， 你 会 找到 WHO 的 情况 报告 
(http://apps.who.int/ebola/ebola-situation-reports)。WHO 网 站 上 有 关于 最 新 病例 和 死亡 的 信 
息 ， 还 有 交互 式 地 图 显示 受 影响 的 地 区 ， 以 及 应 对 措施 的 关键 绩效 指标 ， 这 些 内 容 似 乎 都 
是 每 周 更 新 。 数 据 有 CSV 和 JSON 两 种 格式 ， 是 真实 可 靠 、 定 期 更 新 的 信息 来 源 。 

你 要 不 断 挖掘 寻找 其 他 可 用 的 资源 ， 而 不 是 在 出 现 的 第 一 个 结果 这 里 就 止步 不 前 。 经 过 进 
一 步 搜 索 ， 我 们 找到 GitHub 用 户 cmrivers 的 仓库 (https://github.com/cmrivers/ebola)， 里 
面 是 来 自 许 多 政府 和 媒体 数据 源 的 原始 数据 汇总 。 由 于 我 们 知道 该 用 户 ， 可 以 通过 联系 方 
式 联系 到 他 们 ， 所 以 我 们 还 可 以 核实 数据 最 近 一 次 的 更 新 时 间 ， 并 咨询 任何 与 数据 采集 方 
法 有 关 的 问题 。 我 们 学 过 如 何 处 理 这 些 数据 格式 (CSV、PDF 文件 )， 所 以 处 理 起 来 应 该 
不 成 问题 。 

进一步 深入 挖掘 ， 你 可 能 会 专注 于 一 个 具体 的 问题 ， 比 如 :“ 在 安全 下 药方 面 采 取 了 哪些 
预防 措施 ? ”你 找到 一 份 由 Sam Libby (https://data.humdata.org/user/libbys) 维护 的 报告 ， 
报告 内 容 是 关于 安全 、 庄 严 的 葬礼 的 (https://data.humdata.org/dataset/safe-and-dignified- 
burial-teams) 。 太 棒 了 ! 遇 到 任何 问题 你 都 可 以 直接 联系 Sam。 

你 已 经 找到 了 一 系列 很 好 的 初始 数据 源 ， 并 确认 它们 来 自 你 信任 的 组 织 ， 同 时 还 找到 了 联 
系 人 ， 在 研究 过 程 中 可 以 向 他 寻求 更 多 信息 。 下 面 我 们 来 看 男 一 个 例子 。 


6.5.2 ”列车 安全 


再 比方 说 ， 你 对 美国 的 列车 安全 感 兴趣 。 你 的 问题 可 能 是 : 有 哪些 影响 列车 安全 的 不 利 因 
素 ? 首先 ， 你 可 能 看 过 之 前 关于 列车 安全 的 研究 。 你 找到 了 联邦 铁路 管理 局 (FRA)， 其 
核心 职责 就 是 确保 铁路 安全 可 用 。 在 FRA 网 站 上 (https://www.fra.dot.gov/) 阅读 了 一 些 报 
告 和 情况 简报 后 ， 你 发 现 大 部 分 报告 都 显示 ， 列 车 事故 发 生 的 原因 是 轨道 养护 不 佳 或 人 为 
失误 。 

你 对 人 为 失误 更 感 兴趣 ， 所 以 决定 深入 挖掘 这 一 点 。 你 发 现 FRA 在 铁路 员工 和 安全 方 
面 发 布 了 大 量 的 报告 。 你 找到 一 份 关 于 铁路 工人 睡眠 类 型 的 报告 (http://catalog.data.gov/ 
dataset/work-schedules-and-sleep-patterns-of-railroad-employees-train-and-engine-service) ， 可 以 部 
分 解释 人 为 失误 发 生 的 原因 。 你 还 找到 联邦 法 规 关 于 对 铁路 员工 做 药物 和 酒精 测试 的 一 些 
资料 (http://www .fra.dot.gov/eLib/details/L02699) 。 


现在 你 可 能 有 更 多 的 问题 ， 你 可 以 将 范围 缩小 ， 详 细 曾 述 你 真正 想 了 解 的 问题 。 现 在 你 的 
问题 可 能 会 变 成 “喝酒 导致 的 铁路 事故 发 生 频 率 是 多 少 ” 或 者 “火车 工程 师 加 班 或 劳累 过 
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度 的 频率 是 多 少 ”。 你 已 经 有 了 初步 的 可 信 数 据 集 ， 还 可 以 在 研究 过 程 中 致电 FRA 了 解 更 
多 信息 。 


6.5.3 ”足球 运动 员 的 薪水 

再 比如 说 ， 你 对 足球 〈 用 脚 踢 的 足球 ， 不 是 猪 皮 做 的 橄 槛 球 ) 运动 员 的 薪水 感 兴 趣 。 这 些 
运动 员 能 赚 多 少 钱 ， 每 个 运动 员 对 球 队 的 影响 有 多 大 ? 

初次 搜索 之 后 ， 你 发 现 数据 太 杂 ， 决 定 专注 研究 某 一 个 联赛 。 比 方 说 你 选择 英超 联赛 。 你 
在 一 个 可 能 从 没 听 说 过 的 网 站 上 找到 了 英超 俱乐部 的 薪水 列表 (http://www.tsmplug.com/ 
football/premier-league-player-salaries-club-by-club/)。 看 来 作者 已 经 编辑 好 了 每 一 支 球 队 
的 列表 ， 以 及 每 一 名 球员 的 薪水 列表 (http://www.tsmplug.com/football/man-city-players- 
salaries-2014/) 。 为 了 更 好 地 理解 数据 的 来 产 ， 并 保证 数据 源 可 信 ， 你 应 该 联系 页 面 中 给 出 
的 作者 ， 以 获取 更 多 信息 。 


如 果 你 同时 搜索 球员 代言 ， 可 能 会 找到 这 个 统计 表 (http://www.statista.com/statistics/ 
266636/best-paid-soccer-players-in-the-2009-2010-season/) ， 里 面 列 出 了 项 薪 足 球 运动 员 的 代 
言 费 用 和 薪水 数据 。 你 可 能 也 想 去 联系 作者 ， 询 问 是 否 有 最 新 的 代言 费用 数据 ， 可 以 和 最 
新 的 赛季 作对 比 。 


现在 你 已 经 有 了 薪水 数据 ， 你 还 想 了 解 一 些 统计 数据 ， 看 看 顶 菏 运 动员 究竟 有 多 优秀 。 你 
在 英超 联赛 网 站 (http://www.premierleague.com/content/premierleague/en-gb/players/index. 
html) 上 找到 一 些 球员 统计 数据 。 这 可 能 是 你 只 能 用 网 络 抓 取 来 获取 的 数据 (第 11 章 会 
有 更 多 关于 网 络 抓 取 的 内 容 )， 但 你 知道 数据 来 源 是 可 靠 的 。 继 续 搜 索 球员 统计 数据 ， 你 
可 能 会 在 top assists 网 站 (http://www.espnfc.com/barclays-premier-league/23/statistics/assists) 
上 找到 更 多 数据 。 你 还 可 以 分 析 点 球 统计 数据 (http:Weplreview.comystatistics-penalty.htm ) 。 
同样 ， 你 应 该 调查 任何 数据 源 的 有 效 性 ， 这 一 点 并 不 容易 验证 。 


现在 你 可 以 开始 数据 分 析 ， 计 算 每 一 名 球员 进 球 、 红 牌 和 点 球 的 价值 ! 




















6.5.4 童工 


最 后 ， 我 们 来 探索 一 个 本 书后 续 章 市 将 要 回答 的 问题 。 我 们 将 专注 研究 国际 童工 危机 。 当 
思考 国际 话题 时 ， 我 们 立刻 想到 要 寻找 国际 组 织 。 

我 们 发 现 UNICEF 的 开放 数据 网 站 致力 于 发 布 童工 报告 (http://data.unicef.org/child- 
protection/child-labour.html) 。 事 实 上 ，UNICEF 拥有 全 球 妇女 儿童 健康 状况 的 全 部 数据 集 
(http://mics.unicef.org/)。 这 些 数据 集 可 能 对 回答 类 似 “ 早 婚 对 童工 率 是 否 有 影响 ? ”这 样 
的 问题 很 有 帮助 。 

在 寻找 政府 数据 时 ， 我 们 找到 了 美国 劳工 部 关于 全 球 童工 的 年 度 报告 (https://www.dol. 
gov/agencies/ilab/resources/reports/child-labor) 。 这 些 报告 可 以 用 来 与 UNICEF 的 数据 集 相互 
对 照 。 


另外 ， 我 们 还 找到 国际 劳工 组 织 (ILO) 关于 童工 的 趋势 报告 (http://www.ilo.org/ipec/ 





























Informationresources/WCMS_IPEC_PUB_23015/lang--en/index.htm)。ILO 报告 似乎 给 出 了 许 
多 不 同 数据 集 的 链接 ， 应 该 是 童工 历史 数据 的 很 好 参考 。 

我 们 还 汇总 了 下 面 几 章 会 用 到 的 几 个 数据 集 。 我 们 将 这 些 数据 集 都 放 在 数据 仓库 中 
(https://github.com/jackiekazil/data-wrangling)， 以 便 后 续 使 用 。 

前 面 已 经 探讨 了 如 何 发 现 问 题 并 搜索 资源 ， 下 面 我 们 来 看 一 下 数据 存储 。 


6.6 ”数据 存储 


找到 数据 之 后 ， 你 需要 把 数据 保存 下 来 ! 有 些 时 候 ， 你 得 到 的 数据 是 干净 的 、 易 于 访问 
的 、 机 器 可 读 的 格式 。 其 他 时 候 ， 你 可 能 想 用 另 一 种 方法 来 保存 数据 。 当 你 第 一 次 从 CSV 
或 PDF 中 提取 数据 的 时 候 ， 我 们 会 讲 到 几 种 数据 存储 工具 ， 或 者 ， 你 可 以 等 数据 完全 处 理 
并 清洗 完成 后 再 进行 存储 (我 们 会 在 第 7 章 讲 到 数据 清洗 的 内 容 )。 























我 应 该 把 数据 保存 在 哪里 ? 


最 开始 的 问题 是 ， 要 将 数据 保存 到 其 他 地 方 ， 还 是 留 在 最 开始 提取 的 文件 中 。 这 有 一 
系列 问题 可 以 帮 你 回答 这 个 问题 。 


。 你 能 否 用 简单 的 文档 阅读 器 (例如 Microsoft Word) 打开 数据 集 ， 同 时 不 会 造成 计 
算 机 死机 ? 

。 数据 看 起 来 是 否 具 有 良好 的 标签 和 结构 ， 让 你 可 以 方便 提取 出 每 一 段 信息 ? 

。 如 果 需 要 不 止 一 台电 脑 来 处 理 数据 的 话 ， 数 据 的 保存 和 移动 是 否 方便 ? 

。 能 否 利 用 API 实时 访问 数据 ， 这 样 你 就 能 在 线 获取 需要 的 数据 ? 

如 果 所 有 问题 的 回答 都 是 “是 ”， 你 可 能 不 必 担 心 保存 数据 的 问题 。 如 果 你 的 回答 有 

是 ” 有“ 否 ” 的 话 ， 可 能 需要 将 数据 保存 在 数据 库 或 平面 文件 (flat file) 中 。 如 果 所 

有 问题 的 回答 都 是 “ 否 " ， 继 续 读 下 去 ， 我 的 朋友 ， 我 们 为 你 提供 了 解决 方法 ! 














假设 你 的 数据 集 各 不 相同 一 一 这 里 的 一 个 文件 ， 那 里 的 一 份 报告 。 其 中 一 些 很 容易 下 载 和 
访问 ， 但 其 他 的 你 可 能 需要 从 网 络 上 复制 或 抓 取 。 第 7 章 和 第 9 章 中 会 讲 到 如 何 清洗 与 合 
并 数据 集 ， 但 现在 我 们 来 谈 一 谈 如 何 将 数据 保存 在 共享 位 置 。 


如 有 果 你 要 用 的 数据 集 来 自 多 台电 脑 ， 建 议 你 把 它们 都 保存 在 网 络 或 互联 网 中 
(你 好 ， 云 计算 ! )， 或 者 保存 在 移动 硬盘 或 U 盘 中 。 当 你 和 团队 合作 时 ， 团 
队 成 员 可 能 会 从 不 同 地 点 或 不 同 电脑 访问 数据 ， 一 定 要 记 住 这 一 点 。 如 果 你 
在 一 台 计 算 机 上 工作 ， 一 定 要 有 数据 备份 策略 。 电 脑 丢失 最 糟糕 的 一 点 就 
是 ， 你 花 几 个 月 时 间 获 取 并 清洗 的 数据 也 丢失 了 。 


a Ac 
6.7 ”数据 库 简介 
数据 库 一 一 初学 生 爱 ， 爱 极 生 恨 。 作 为 开发 人 员 ， 你 可 能 会 在 学 习 和 工作 中 用 到 各 种 类 型 
的 数据 库 。 本 节 不 会 对 数据 库 做 全 面 介绍 ， 但 我 们 希望 对 数据 库 基本 概念 做 一 个 简要 介 
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绍 。 如 果 你 已 经 熟练 掌握 数据 库 的 使 用 ， 可 以 大 致 浏览 一 下 本 市 ， 继 续 阅 读 关 于 其 他 存储 
方案 以 及 何 时 使 用 数据 库 的 内 容 。 


你 用 Siri 查 过 手机 里 的 电话 号 码 么 ?你 用 过 谷歌 搜索 么 ?你 有 没有 点 击 过 Twitter 或 
Instagram 里 的 标签 ? 这些 操作 都 涉及 对 数据 库 (或 一 系列 数据 库 ， 或 数据 库 缓存 ) 的 简单 
查询 和 响应 。 你 有 一 个 问题 [在 YouTube 上 新 出 了 哪些 关于 猫 (Maru) 的 有 趣 视频 ?|]， 
你 向 一 个 特定 的 数据 库 (YouTube 搜索 ) 提问 ， 得 到 有 趣 的 响应 一 一 可 以 观赏 的 搜索 结果 
列表 。 


在 接 下 来 的 几 节 里 ， 我 们 将 简要 讲述 两 种 主要 的 数据 库 类 型 ， 强 调 了 各 自 的 利弊 ， 并 对 比 
了 二 者 的 优点 和 缺点 。 对 于 数据 处 理 来 说 ， 你 绝对 不 需要 使 用 数据 库 ， 然 而 ， 随 着 数据 处 
理 和 分 析 变 得 更 加 复杂 ， 数 据 库 知识 及 其 使 用 将 变 得 更 加 重要 ， 可 以 提高 你 存储 和 分 析 数 
据 的 能 


如 果 你 对 数据 库 感 兴趣 ， 我 们 会 讲 到 用 Python 处 理 数据 库 的 几 个 技巧 ， 但 显然 我 们 没有 足 
够 的 时 间 全 面 讲述 这 个 话题 。 我 们 强烈 推荐 你 根据 自己 的 兴趣 去 搜索 更 多 的 资料 、 视 频 和 
教程 。 


6.7.1 关系 型 数据 库 : MySQL 和 PostgreSQL 


对 于 来 源 很 多 、 同 时 还 有 各 种 层次 关联 性 的 数据 ， 关 系 型 数据 库 是 很 好 用 的 。 关 系 型 数 
据 库 正 如 其 名 : 如 果 你 的 数据 连接 类 似 于 家 谱 ， 那 么 关系 型 数据 库 可 能 会 适合 你 ， 比 如 
MySQL。 


关系 型 数据 库 通常 使 用 一 系列 唯一 标识 符 来 匹配 数据 集 。 在 SQL 里 我 们 一 般 把 这 些 标识 符 
叫 作 IDP。 这 些 ID 可 以 被 其 他 数据 集 所 用 ， 用 来 查询 和 匹配 数据 连接 。 在 这 些 连 接 好 的 数 
据 库 中 ， 我 们 可 以 进行 join 操作 ， 在 许多 不 同 的 数据 库 中 同时 访问 连接 的 数据 。 我 们 来 看 
二 个 例 尘 s 


我 有 一 个 特别 厉害 的 朋友 ， 叫 Meghan。 她 有 一 头 黑 发 ， 在 《纽约 时 报 》 工 作 。 在 工作 之 
余 ， 她 喜欢 跳舞 、 京 饪 和 教 人 如 何 编程 。 如 果 我 有 一 个 关于 朋友 的 数据 库 ， 使 用 SQL 代表 
他 们 的 属性 ， 我 可 能 会 这 样 分 表 : 


**friend_table: © 
friend id @ 
friend_name 

friend_date of_birth 
friend_current_location 
friend_birthplace 
friend_occupation_id 





































































































**friend_occupation_table: 
friend_occupation_id 
friend_occupation_name 
friend_occupation_location 


**friends_and_hobbies_table: 
friend_id 
hobby_id 





**hobby_details_table: 
hobby_id 

hobby_name 
hobby_LeveL_of_awesome 


@ 在 我 的 朋友 数据 库 中 ， 每 一 部 分 〈 以 *#* 表示 ) 都 是 一 个 表 。 在 关系 型 数据 库 中 ， 表 通 
常用 来 保存 特定 主题 或 特定 对 象 的 信息 。 

名 表 中 包含 的 每 一 条 信息 叫 作 字段 。 在 这 个 例子 中 ，friend_id 字段 包含 friend_table 中 
每 一 位 朋友 的 唯一 有 D。 


我 可 以 向 数据 库 提问 Meghan 的 爱好 是 什么 ? 想 要 获取 这 个 信息 ， 我 需要 对 数据 库 说 : 
“ 嘿 ， 我 要 查询 我 的 朋友 Meghan。 她 住 在 纽约 ， 这 是 她 的 生日 ， 你 能 告诉 我 她 的 ID 吗 ? ” 
对 于 这 条 查询 ，SQL 数据 库 返 回 的 是 她 的 friend_id。 然 后 我 可 以 向 friend_and_hobbies_ 
table 提问 (这 个 表 正 确 匹 配 了 朋友 ID 和 爱好 ID)， 与 这 个 朋友 ID 匹配 的 爱好 是 什么 ， 
它 会 返回 由 三 个 新 的 爱好 ID 组 成 的 列表 。 


由 于 这 些 ID 都 是 数字 ， 我 想 进 一 步 了 解 它们 的 含义 。 我 向 hobby_details_table 提问 : 
“你 能 告诉 我 关于 这 些 爱好 ID 的 更 多 内 容 吗 ? ” 它 回答 :“ 当 然 可 以 ! 一 个 是 跳舞 ， 一 个 
是 训 饪 ， 一 个 是 教 人 如 何 编程 。 啊 哈 ! 只 利用 最 开始 的 朋友 描述 ， 我 就 解 开 了 这 个 谜 题 。 
创建 数据 库 并 向 其 中 导入 数据 可 能 涉及 许多 步骤 ， 但 如 果 你 的 数据 库 很 复杂 ， 有 许多 不 同 
的 关系 ， 那 么 搞 清楚 如 何 连接 这 些 数据 并 找到 你 想 要 的 信息 ， 步 又 不 应 该 很 复杂 。 在 构建 
关系 型 数据 库 时 ， 花 点 时 间 研 究 关 系 和 属性 之 间 的 上 映射， 类 似 我 们 在 朋友 数据 库 所 做 的 那 
样 。 都 有 哪些 不 同 的 数据 类 型 ， 它 们 之 间 是 如 何 映射 的 ? 


在 关系 型 数据 库 架 构 中 ， 通 过 思考 数据 的 使 用 频率 ， 我 们 知道 要 如 何 匹 配 数 据 。 你 希望 
向 数据 库 请 求 的 查询 易于 回答 。 由 于 我 们 可 能 会 用 职业 来 寻找 对 应 的 朋友 ， 所 以 我 们 将 
occupation_id 放 在 friend_table 表 中 。 

还 需要 注意 的 是 ， 关 系 有 许多 不 同 的 类 型 。 例 如 ,我 有 许多 朋友 的 爱好 都 是 京 饪 。 我 们 把 
这 种 情况 称 为 多 对 多 关系 。 如 果 我 们 再 添加 一 个 叫 作 pets 的 表 ， 就 会 新 增加 一 种 关系 类 
型 多 对 一 关系 。 这 是 因为 有 些 朋 友 养 了 不 止 一 只 宠物 ， 但 每 只 宠物 只 能 有 一 个 主人 。 
我 可 以 使 用 friend_id 查询 每 一 位 朋友 的 所 有 宠物 。 

如 果 你 有 兴趣 深 入 学 习 SQL 和 关系 型 数据 库 的 内 容 ， 我 们 建议 在 SQL 上 多 花 点 时 间 。 
入 门 SQL 可 以 在 “Learn SQL The Hard Way” (http://sql.learncodethehardway.org/) 和 
“SQLZOO” (http://sqlzoo.net/) 这 两 个 网 站 上 学 习 。PostgreSQL 和 MySQL 在 语法 上 有 一 
些 细微 的 差别 ， 但 它们 的 基础 知识 相同 ， 你 可 以 自己 选择 学 习 哪 一 个 。 

1. MySQL 和 Python 

如 果 你 熟悉 MySQL (或 正在 学 习 MySQL)， 想 要 使 用 MySQL 数据 库 ， 那 么 用 Python 连 
接 MySQL 是 很 容易 的 。 你 需要 做 的 只 有 两 步 。 第 一 步 ， 你 必须 安装 MySQL 驱动 程序 。 
第 二 步 ， 你 应 该 用 Python 发 送 验证 信息 (用 户 名 、 密 码 、 主 机 名 、 数 据 库 名 称 )。 这 两 步 
在 Stack Overflow 上 都 可 以 找到 很 多 优质 的 回答 (http://stackoverflow.com/questions/372885/ 
how-do-i-connect-to-a-mysql-database-in-python ) 。 
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2. PostgreSQL 和 Python 
如 果 你 熟悉 PostgreSQL (或 正在 学 习 PostgreSQL)， 想 要 使 用 PostgreSQL 数据 库 ， 那 么 用 
Python 连接 PostgreSQL 也 是 很 容易 的 。 你 也 只 需要 做 两 步 : 安装 驱动 程序 ， 用 Python 连接 。 


Python 的 PostgreSQL 驱动 程序 有 很 多 (https://wiki.postgresql.org/wiki/Python)， 但 最 流行 
的 是 Psycopg (http://initd.org/psycopg/)。 在 Psycopg 的 安装 页 面 (http://initd.org/psycopg/ 
docs/install.html) 中 详细 介绍 了 如 何在 电脑 上 运行 Psycopg， 在 PostgreSQL 网 站 上 也 有 关于 
Python 如 何 使 用 Psycopg 的 详细 介绍 (https:Wwiki.postgresql.org/wiki/Psycopg2_Tutorial ) 。 


6.7.2” 非 关系 型 数据 库 : NoSQL 


比方 说 ， 你 喜欢 使 用 数据 库 这 个 主意 ， 但 映射 出 所 有 关系 会 让 你 抓 狂 。 可 能 只 是 因为 你 目 
前 没有 真正 理解 数据 的 连接 方式 ， 也 可 能 是 因为 你 用 的 是 平面 数据 (flat data， 也 就 是 说 ， 
不 必 良 好 映射 的 无 关系 数据 )， 或 者 也 可 能 是 因为 你 对 学 习 SQL 没有 更 强烈 的 兴趣 。 幸 运 
的 是 ， 还 有 一 种 适合 你 的 数据 库 。 

NoSQL 以 及 其 他 非 关 系 型 数据 库 将 数据 保存 成 平面 格式 (flat format)， 通 常 是 JSON 格 
式 。 我 们 在 第 3 章 中 说 过 ，JSON 查找 信息 的 方法 很 简单 。 回 到 上 一 节 关 于 我 朋友 的 数据 ， 
如 有 果 我 只 有 保存 在 节点 中 的 数据 ， 通 过 这 些 节 点 可 以 查询 该 朋友 的 更 多 信息 ， 那 我 应 该 怎 
么 做 ?数据 看 起 来 可 能 是 这 样 的 : 





















































"name' : "Meghan ' ， 
"occupation': { 'employer': 'NYT', 
'role': 'design editor', 
}， 
'birthplace': 'Ohio', 
'hobbies': ['cooking', 'dancing', 'teaching'], 
} 


可 以 看 出 ,我 用 一 个 简单 列表 就 可 以 给 出 我 朋友 的 所 有 属性 ， 无 需 创建 表 。 


你 可 能 想 知道 ， 关 系 型 数据 的 优点 是 什么 ? 你 问 不 同 的 人 ， 得 到 的 回答 可 能 会 完全 不 
同一 一 在 计算 机 科学 领域 ， 在 众多 开发 人 员 之 中 ， 这 是 一 个 激烈 争论 的 话题 。 我 们 的 观点 
是 ， 当 数据 结构 包含 大 量 的 关系 网 络 时 ，SQL 对 快速 查询 做 出 了 许多 改进 。 非 关系 型 数据 
库 在 速度 、 可 用 性 和 复 用 方面 做 出 了 许多 改进 。 

最 后 ， 如 果 你 对 学 习 某 一 种 数据 库 有 更 强烈 的 兴趣 ， 可 以 让 兴趣 帮 你 做 决定 ， 但 不 要 现在 
就 确定 数据 库 的 格式 。 如 果 你 需要 在 关系 型 数据 库 和 非 关系 型 数据 库 之 间 迁 移 ， 有 许多 工 
有 具 可 以 帮 你 完成 这 一 任务 。 

















注 1: 对 于 在 SQL 和 NoSQL 数据 库 之 间 的 迁移 ， 更 多 内 容 可 查阅 Matt Asay 关于 将 Foursquare 从 关系 型 
数据 库 迁 移 到 NoSQL 数据 库 的 文章 (http://www.techrepublic.com/blog/the-enterprise-cloud/migrating- 
from-a-relational-to-a-nosql-cloud-database/) 。 另 外 ，Quora 上 还 有 许多 关于 反 向 迁移 的 文章 (https:/ 


www.quora.com/How-do-I-migrate-data-from-a-MongoDB-to-MySQL-database-Can-it-be-done-in-a-real- 

















time-scenario-What-are-the-pros-and-cons-for-each-migration-Which-one-do-you-advice-What-is-your- 


experience-Any-reference-DB-expert-who-can-do-it) 。 





MongoDB 和 Python 

如 果 你 的 数据 具有 非 关 系 型 数据 库 结 构 ， 或 者 你 希望 在 实践 中 学 习 ， 那 么 用 Python 连 
接 NoSQL 数据 库 是 非常 简单 的 。 虽 然 有 很 多 选择 ， 但 最 流行 的 NoSQL 数据 库 框架 之 
一 是 MongoDB (http:/mongodb.org/)。 要 使 用 MongoDB， 你 需要 首先 安装 驱动 程序 
(http:/docs.mongodb.org/ecosystemy/drivers/python/) ， 然 后 用 Python 来 连 接 。 在 PyCon 
2012 上 有 一 个 很 棒 的 演讲 :“Getting Started with MongoDB” (https://github.com/behackett/ 
presentations/tree/master/pycon_2012)， 你 可 以 从 这 里 开始 学 习 MongoDB 以 及 如 何 用 
Python 连接 。 


6.7.3 用 Python 创建 本 地 数据 库 

开始 学 习 数 据 库 和 Python 最 简单 的 方法 就 是 ， 使 用 一 个 简单 的 库 帮 你 快速 上 手 。 对 于 本 
书 来 说 ， 我 们 推荐 学 习 Dataset 库 (http://dataset.readthedocs.io/)。Dataset 是 一 个 包装 库 
(wrapper library)， 可 以 将 可 读 的 Python 代码 翻译 成 要 处 理 的 数据 库 代 码 ， 以 加 快 开发 速 
度 。 


如 果 你 已 有 一 个 SQLite、PostgreSQL 或 MySQL 数据 库 ， 可 以 参考 快速 入 门 指南 (https:// 
dataset.readthedocs.io/en/latest/quickstart.html) 直接 连接 。 如 果 你 还 没有 上 述 数据 库 之 一 ， 
在 使 用 这 个 工具 时 它 会 为 你 创建 一 个 。 我 们 来 看 一 下 如 何 让 它 在 你 的 电脑 上 运行 。 

你 要 做 的 第 一 件 事 是 安装 Dataset (http://dataset.readthedocs.io/en/latest/install.html) 。 如 果 你 


已 经 安装 了 pip， 那 么 只 需要 输入 pip install dataset。 

然后 你 需要 确定 用 到 的 后 端 。 如 果 你 已 经 在 用 PostgreSQL 或 MySQL， 只 需要 用 对 应 的 语 

法 创建 一 个 新 的 数据 库 。 如 果 你 对 数据 库 不 太 熟 悉 ， 那 我 们 就 用 SQLite。 首 先 ， 下 载 操作 

系统 对 应 的 SQLite 二 进 制 文件 (http:Wwww.sqlite.org/download.html) 。 打 开 下 载 的 文件 ， 

按照 安装 说 明 一 步 步 安装 。 

打开 终端 ， 切 换 (cd) 到 保存 Python 数据 处 理 脚本 的 项 目 文件 夹 。 输 入 以 下 代码 来 创建 新 

的 SQLite 数据 库 : 
sqlite3 data_wrangling.db 

你 应 该 会 看 到 以 sqlite> 开头 的 提示 符 ， 提 示 你 输入 SQL 语句 。 你 已 经 确认 电脑 上 可 以 运 

行 sqlite3， 可 以 在 终端 输入 .q 退出 SQLite。 退 出 后 ， 列 出 当前 文件 夹 的 所 有 文件 。 现 在 

你 应 该 会 看 到 一 个 名 为 data_wrangling.db 的 文件 一 一 那 就 是 你 的 数据 库 ! 

安装 好 了 SQLite， 运 行 了 第 一 个 数据 库 之 后 ， 现 在 要 开始 使 用 Dataset 了 。 在 Python 中 运 

行 以 下 代码 : 


import dataset 






















































































db = dataset.connect('sqlite:///data_wrangling.db') 


my_data_source = { 


url 
'http://www.tsmplug.com/football/premier-league-player-salaries-club-by-club/', 
"description': 'Premier League Club Salaries', 
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'topic': 'football', 
'verified': False, 


10 


table = db['data_sources'] © 
table.insert(my_data source) © 


another_data_source = { 


扩 咱 蕊 曲 抱 
'http://www.premierleague.com/content/premierleague/en-gb/players/index.html', 
'description': 'Premier League Stats', 


'topic': 'football', 
'verified': True, 


} 
table.insert(another_data_source) 
sources = db['data_ sources'].all() 四 


print sources 


@ 创建 一 个 Python 字典， 里面 是 我 们 要 保存 的 数据 。 我 们 要 保存 的 是 足球 研究 的 数据 源 。 
我 们 添加 的 信息 有 主题 、 描 述 、URL 以 及 我 们 是 否 对 数据 做 过 核实 。 

@ 创建 名 为 data_sources 的 新 表 。 

@ 将 第 一 个 数据 源 插入 新 表 。 

@ 显示 我 们 保存 在 data_sources 表 中 的 所 有 数据 源 。 

你 已 经 利用 SQLite 创建 了 第 一 个 关系 型 表 ， 并 完成 了 Python 与 数据 库 之 间 的 第 一 次 交互 。 

随 着 本 书 内 容 的 深入 ， 你 将 会 向 数据 库 中 添加 更 多 的 数据 和 表 。 将 所 有 数据 保存 到 一 处 ， 

可 以 让 你 数据 结构 清晰 ， 让 你 的 研究 更 加 专注 。 


6.8 使 用 简单 文件 


如 果 你 的 数据 集 很 小 ， 很 可 能 简单 文件 就 可 以 满足 要 求 ， 不 必 使 用 数据 库 。 你 可 能 想 浏 览 
一 下 第 7 章 ， 在 保存 之 前 先 用 数据 清洗 技术 处 理 一 下 ， 但 把 数据 保存 成 CSV 文件 或 其 他 
简单 文件 格式 是 完全 可 以 的 。 我 们 用 来 导入 CSV 的 csv 模块 ( 见 3.1.1 节 ) 也 有 许多 好 用 
的 写 入 类 (https://docs.python.org/2/library/csv.html#writer-objects) 。 

在 使 用 简单 文件 时 ， 你 主要 考虑 的 是 确保 访问 和 备份 文件 都 比较 方便 。 要 满足 这 些 需 求 ， 
你 可 以 将 数据 保存 在 共享 网 盘 或 云 服务 (Dropbox、Box、Amazon、Google Drive) 中 。 这 
些 服务 通常 都 会 提供 备份 选项 和 管理 能 力 ， 同 时 还 能 够 分 享 文件 。 在 “哎呀 ， 我 把 数据 文 
件 覆 盖 了 ”时 ， 这 是 非常 有 用 的 。 


6.8.1 云 存 储 和 Python 


根据 你 选择 的 云 存储 方案 ， 你 应 该 研究 一 下 用 Python 获取 数据 的 最 佳 方法 。Dropbox 
对 Python 的 支持 很 好 ， 网 站 上 的 “Python 快速 入 门 指南 ”(https://www.dropbox.com/ 
developers-vl/core/start/python) 很 不 错 。Google Drive 要 复杂 一 些 ， 但 “Python 快速 上 手 





















































指南 ”(https://github.com/googledrive/python-quickstart) 可 以 帮 你 完成 初步 的 设置 。Google 
Drive 还 有 一 些 Python API 包装 器 ， 比 如 PyDrive (https://github.com/googledrive/PyDrive)， 
可 以 让 你 在 不 太 会 用 Python 的 情况 下 使 用 Google Drive。 要 管理 Google Drive 上 的 电子 表 
格 ， 我 们 强烈 推荐 GSpread (https://github.com/burnash/gspread)。 


如 果 你 有 自己 的 云 服务 器 ， 可 能 需要 研究 连接 云 服 务 器 的 最 佳 方法 。Python 有 内 置 的 URL 
请 求 方法 、FTP (文件 传输 协议 ) 方法 和 SSH/SCP (Secure Shell/Secure Copy) 方法 ， 都 包 
含 在 Python 标准 库 (stdlib) 中 。 在 第 14 章 中 我 们 还 会 讲 到 管理 云 服务 的 一 些 有 用 库 。 


6.8.2 ”本 地 存储 和 Python 


数据 存储 最 简单 也 是 最 直接 的 方法 就 是 本 地 存储 。 用 一 行 Python 代码 就 可 以 打开 文件 系 
统 中 的 文档 (open 命令 ，https:Wdocs.python.org/2/library/functions.html#open) 。 在 处 理 数据 
时 ， 你 还 可 以 用 内 置 的 file.write 方法 修改 并 保存 为 新 文件 。 


6.9 其 他 数据 存储 方式 


数据 存储 还 有 许多 有 趣 的 新 方式 ， 和 前 面 讲 过 的 都 不 一 样 。 根 据 你 的 使 用 案例 ， 存 储 数据 

可 能 有 更 好 的 方式 。 下 面 是 两 种 有 趣 的 存储 方式 。 

。 层次 型 数据 格式 (HDF) 
HDF 是 基于 文件 的 可 扩展 数据 解决 方案 ， 可 将 大 型 数据 库 快速 存储 至 文件 系统 (本 地 
或 其 他 位 置 )。 如 果 你 已 经 很 熟悉 HDF，Python 有 一 个 HDF5 驱动 程序 h5py (http:/ 
www.h5py.org/) ， 可 以 将 Python 与 HDF5 相连 接 。 














。 Hadoop 
Hadoop 是 一 个 大 数据 分 布 式 存储 系统 ， 可 以 跨 集群 存储 并 处 理 数 据 。 如 有 果 你 已 经 用 过 
Hadoop， 或 者 熟悉 Hadoop， 在 Cloudera 网 站 上 有 一 篇 “Hadoop 上 Python 框架 指南 ” 
(http://blog.cloudera.com/blog/2013/01/a-guide-to-python-frameworks-for-hadoop/)， 还 有 
一 些 容易 上 手 的 代码 示例 。 


6.10 小结 

恭喜 ! 你 已 经 搞定 了 项 目 面临 的 几 个 最 大 问题 : 我 怎么 能 找到 有 用 的 数据 ?我 怎么 访问 并 
保存 数据 ? 我 们 希望 你 对 获取 的 数据 源 有 信心 ， 并 相信 你 第 一 个 数据 集 的 真实 性 。 我 们 也 
希望 你 对 数据 备份 和 数据 存储 有 一 个 可 靠 的 计划 。 

你 可 以 将 本 章 学 习 的 技术 应 用 到 以 后 的 数据 集 上 ， 即 使 是 在 数据 网 站 上 花 几 个 小 时 研究 脑 
海中 突然 出 现 的 问题 。 

现在 你 应 该 有 信心 做 好 以 下 事情 : 

。 判断 你 找到 数据 集 的 价值 和 用 途 

。 拿 起 电话 寻求 更 多 信息 

。 要 回答 一 个 了 问题， 知道 首先 去 哪里 寻找 数据 
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。 轻松 实现 安全 存储 数据 的 方法 
。 核实 你 找到 的 数据 
。 构建 数据 的 关系 模型 


你 还 第 一 次 接触 到 表 6-2 中 的 这 些 概念 。 
表 6-2: Python 编程 新 概念 和 新 库 





























概念 / 库 作用 

关系 型 数据 库 (例如 MySQL 和 PostgreSQL ) 轻松 存储 关系 型 数据 

非 关系 型 数据 库 (例如 MongoDB) 以 平面 方式 存储 数据 

SQLite (https://www.sqlite.org/) 安装 和 使 用 基于 SQL 的 易 用 存储 ， 适 用 于 简单 项 目 
Dataset (https://dataset.readthedocs.org/en/latest/) 安装 和 使 用 易 用 的 Python 数据 库 包 装 器 


在 后 续 章 节 中 ， 你 还 会 更 多 地 用 到 所 有 这 些 技术 。 在 下 一 章 里 ， 你 将 学 习 清 洗 数据 ， 利 
用 代码 发 现 异 常 ， 编 写 完整 的 脚本 或 程序 ， 这 样 你 就 可 以 分 析 数 据 ， 并 输出 结果 与 全 世 
界 分 享 。 
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数据 清洗 并 不 是 最 迷人 的 工作 ， 却 是 数据 处 理 的 重要 组 成 部 分 。 要 想 成 为 数据 清洗 专家 ， 
需要 严谨 的 态度 ， 以 及 对 所 研究 领域 全 面 系统 的 知识 。 学 会 如 何 正确 地 清洗 数据 并 汇总 ， 
可 以 让 你 在 研究 领域 中 脱颖而出 。 


Python 的 设计 很 适合 数据 清洗 ， 它 可 以 创建 函数 处 理 相同 的 规律 ， 减 少 重复 性 工作 。 根 据 
我 们 目前 所 学 的 代码 知识 ， 学 会 用 脚本 和 代码 处 理 重复 性 的 问题 ， 可 以 节省 数 小 时 的 体力 
劳动 ， 只 需要 运行 一 次 脚本 就 可 以 完成 。 


本 章 我 们 将 学 习 如 何 用 Python 清洗 数据 和 格式 化 数据 。 我 们 还 会 用 Python 寻找 数据 集中 
的 重复 数据 和 错误 。 在 下 一 章 里 我 们 会 继续 学 习 数据 清洗 ， 特 别 是 清洗 过 程 自 动 化 和 清洗 
后 的 数据 存储 。 


> 法; 水 类 
7.1 为 什么 要 清洗 数据 
对 于 你 获取 的 数据 ， 有 些 可 能 格式 良好 ， 方 便 使 用 。 如 果真 是 这 样 的 话 ， 那 你 很 幸运 ! 大 
部 分 数据 即使 清洗 过 ， 也 会 有 格式 不 一 致 和 可 读 性 的 问题 ， 例 如 首 字母 缩写 或 描述 性 标题 


不 匹配 ， 特 别 是 数据 来 自 多 个 数据 集 。 除 非 你 在 数据 格式 化 和 标准 化 上 花 点 工夫 ， 否 则 数 
据 不 可 能 正确 合并 ， 也 就 没有 用 处 了 。 


清洗 数据 可 以 让 数据 更 容易 存储 、 nels 我 们 在 第 6 章 中 学 过 ， 先 清 
洗 数据 ， 再 把 数据 保存 到 适当 的 模型 中 会 容易 得 多 。 想 象 一 个 数据 集中 有 很 
多 列 (或 字段 )， 应 该 保存 成 特定 的 数据 类 型 ， 比 如 日 期 、 号 码 或 电子 邮件 
地 址 。 如 果 你 能 将 预期 格式 标准 化 ， 清 洗 或 删除 不 合格 的 数据 ， 就 可 以 保证 
数据 的 一 致 性 ， 在 以 后 需要 查询 数据 集 时 也 不 用 做 大 量 工作 。 
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如 果 你 想 展示 你 的 发 现 并 发 布 数 据 ， 就 要 发 布 清洗 过 的 版 本 。 这 样 其 他 数据 处 理 人 员 就 能 
轻松 导入 并 分 析 数 据 。 你 还 可 以 在 发 布 最 终 数据 集 的 同时 发 布 原始 数据 ， 并 说 明 你 是 如 何 
一 步 步 清洗 数据 并 将 其 归 一 化 的 。 

在 清洗 数据 的 过 程 中 ， 我 们 希望 记 下 清洗 过 程 的 每 一 步 ， 这 样 就 可 以 在 研究 中 为 我 们 的 数 
据 集 及 其 使 用 方法 申辩 ， 同 时 也 可 以 方便 我 们 自己 以 及 其 他 人 的 后 续 使 用 。 通 过 记录 清洗 
过 程 ， 在 遇 到 新 的 数据 时 我 们 可 以 重复 整个 过 程 。 


如 果 你 用 了 Python 与 数据 交互 ， 一 个 强大 的 工具 是 IPython 的 魔法 命令 ， 比 
如 %Logstart (https://ipython.org/ipython-doc/dev/interactive/magics.html#magic- 
logstart) 可 用 于 记录 日 志 ,%save (https://ipython.org/ipython-doc/dev/interactive/ 
magics.html#magic-save) 可 以 保存 当前 会 话 供 以 后 使 用 。 这 样 你 就 可 以 在 
Python 终端 里 创建 脚本 ， 而 不 仅仅 是 一 行 行 的 代码 。 随 着 对 Python 的 进 一 
步 学 习 ， 你 可 以 完善 脚本 并 与 其 他 人 分 享 。 想 了 解 更 多 IPython 的 内 容 ， 可 
查阅 附录 下 。 






































下 面 我 们 开始 学 习 数 据 清 洗 的 基础 知识 ， 学 习 如 何 格 式 化 数据 ， 以 及 如 何 将 多 个 数据 集 正 
确 地 匹配 在 一 起 。 


7.2 ”数据 清洗 基础 知识 

如 果 已 经 完成 了 前 面 儿童 的 代码 练习 ， 你 就 已 经 用 到 了 一 些 数 据 清洗 的 概念 。 在 第 4 章 ， 
我 们 从 Excel 工作 表 里 导 出 数据 ， 并 创建 一 个 字典 来 表示 这 些 数据 。 修 改 数据 使 其 满足 新 
的 标准 化 数据 格式 ， 这 个 过 程 就 是 数据 清洗 。 

我 们 已 经 研究 过 UNICEF 发 布 的 与 童工 有 关 的 数据 集 ( 见 6.5.4 市 )， 下 面 我 们 深入 研究 
UNICEF 的 原始 数据 。 大 部 分 UNICEF 报告 的 原始 数据 集 都 来 自 多 指标 类 集 调查 (Multiple 
Indicator Cluster Surveys，MICS ，http:/mics.unicef.org/surveys) 。 这 些 调 查 是 由 UNICEF 工 
作 人 员 和 志愿 者 做 的 家 庭 层面 调查 ， 用 于 对 世界 各 地 妇女 和 儿童 生活 状况 的 研究 。 浏 览 最 
新 的 几 份 调查 ， 我 们 提取 出 津巴布韦 最 新 的 MICS 数据 进行 分 析 。 


在 开始 分 析 之 前 ， 我 们 首先 需要 以 教育 和 研究 为 目的 请 求 访问 UNICEF 网 站 ， 然 后 下 
载 最 新 的 调查 。 获 取 访 问 权 限 之 后 (大约 需要 一 天 的 时 间 )， 我 们 就 可 以 下 载 原始 数据 
集 。 大 多 数 MICS 原始 数据 是 SPSS 格式 或 .sav 文件 。SPSS 是 社会 科学 家 用 来 保存 并 分 
析 数 据 的 程序 。 对 于 某 些 社会 科学 统计 数据 来 说 ， 它 是 很 好 用 的 工具 ， 但 并 不 太 适 合用 
Python 来 处 理 。 

为 了 将 SPSS 文件 转换 成 可 用 的 格式 ， 我 们 首先 使 用 开源 项 目 PSPP (https://www.gnu. 
org/software/pspp/) 来 查看 数据 ， 然 后 用 几 个 简单 的 R 命令 将 SPSS 数据 转换 成 .csv 文件 
(http://bethmcmillan.com/blog/?p=1073)， 这 样 Python 处 理 起 来 会 比较 方便 。 还 有 许多 优秀 
的 项 目 ， 可 以 用 Python 与 SPSS 文件 交互 (https:/pypi.python.org/pypi/savReaderWriter) ， 
但 其 安装 和 操作 都 要 比 R 命令 复杂 。 你 可 以 在 本 书 仓库 (https://github.com/jackiekazil/data- 
wrangling) 中 找到 生成 的 CSV 文件 。 



































仔细 观察 文件 及 其 包含 的 数据 ， 我 们 从 这 里 开始 数据 清洗 过 程 。 数 据 清洗 的 第 一 步 通常 是 
简单 的 目 视 分 析 。 我 们 仔细 观察 文件 ， 看 看 能 发 现 什么 ! 


7.2.1 找 出 需要 清洗 的 数据 

数据 清洗 的 第 一 步 是 ， 观 察 数据 字段 ， 仔 细 寻 找 不 一 致 的 地 方 。 如 果 在 数据 清洗 之 初 就 可 
以 使 数据 看 起 来 更 加 干净 的 话 ， 你 会 更 容易 找到 在 数据 归 一 化 过 程 中 需要 解决 的 最 初 问题 。 
我 们 来 看 一 下 mn.csv 文件 。 文 件 中 包含 原始 数据 ， 并 用 首 字 母 缩写 作为 标题 ， 这 些 缩 写 的 
含义 可 能 很 好 翻译 。 我 们 来 看 一 下 mn.csv 文件 的 列 标题 : 

HHI "HH2" "EN" ;MWMIL" "MWM2 "Ss 50 
每 一 项 都 代表 调查 中 的 一 个 问题 或 数据 ， 我 们 想 要 的 是 可 读 性 更 强 的 版 本 。 通 过 谷歌 
搜索 ， 我 们 在 分 享 MICS 数据 的 世界 银行 网 站 (http://microdata.worldbank.org/index.php/ 
catalog/1794/datafile/F5) 上 找到 了 这 些 标题 的 具体 含义 。 


















































花 点 时 间 研 究 世 界 银 行 网 站 上 有 没有 缩写 一 览 表 ， 可 以 帮 你 更 好 地 完成 数据 
清洗 工作 。 你 还 可 以 给 该 机 构 打 电话 ， 询 问 是 否 有 易于 使 用 的 缩写 列表 。 








利用 在 第 11 章 即将 学 到 的 一 些 网 络 抓 取 技术 ， 我 们 可 以 得 到 一 个 CSV 文件 ， 里 面包 含 这 
些 标题 及 其 英文 释义 ， 以 及 世界 银行 在 采集 这 些 MICS 数据 时 所 问 的 问题 。 我 们 已 将 网 
络 抓 取 生 成 的 新 标题 放 在 本 书 仓库 中 (mn-headers.csv)。 我 们 希望 将 这 些 标题 与 调查 数据 
一 一 对 应 ， 这 样 就 有 了 可 读 性 较 强 的 问题 和 答案 。 我 们 有 几 种 方法 可 以 做 到 这 一 点 。 

1. 替换 标题 

想 要 提高 标题 可 读 性 ， 最 明显 而 直接 的 方法 就 是 将 短 标题 替换 成 易于 理解 的 长 标题 。 如 何 用 
Python 做 标题 坎 换 呢 ? 首先 ， 需 要 用 第 3 章 学 过 的 csv 模块 导入 mn.csv 和 mn-headers.csv 两 
个 文件 (参见 下 面 的 导入 代码 )。 在 本 章 和 下 一 章 中 ， 你 可 以 在 脚本 中 写 代码 ， 也 可 以 在 终 
端 里 (比如 IPython) 写 代码 。 这 样 你 可 以 先 与 数据 交互 ， 然 后 再 将 其 保存 到 文件 中 : 


from csv import DictReader 






































data_rdr = DictReader(open('data/unicef/mn.csv', 'rb')) 
header_rdr = DictReader(open('data/unicef/mn_headers.csv', 'rb')) 


data_rows = [d for d in data_rdr] © 
header_rows = [h for h in header_rdr] 


print data_rows[:5] @ 
print header_rows[:5] 


@ 本 行 代码 将 可 秋 代 对 象 DictReader 写 人 一 个 新 列表 ， 这 样 我 们 可 以 保存 数据 并 重复 使 
用 。 我 们 用 到 了 列表 生成 式 ， 只 需要 一 行 简单 、 清 晰 、 易 读 的 代码 即 可 实现 。 

@ 本 行 代 码 打印 出 数据 的 一 个 切片 ， 用 的 是 Python 列表 的 sLice 方法 ， 显 示 新 列表 的 前 5 
个 元 素 ， 对 列表 内 容 有 一 个 初步 了 解 。 
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在 第 4 行 代码 中 ， 我 们 用 到 了 Python 的 列表 生成 式 (list comprehension) 函数 。Python 列 
表 生 成 式 的 格式 如 下 : 


[func(x) for x in iter_x] 


列表 生成 式 的 首尾 是 列表 的 方 括号 。 它 用 到 一 个 可 迭代 对 象 (iter_x)， 将 iter_x 的 每 一 
行 或 每 一 个 值 传 入 func(x)， 用 返回 值 创建 一 个 新 列表 。 这 里 我 们 没有 用 到 列表 生成 式 的 
国 数 ， 只 用 到 了 每 一 行 的 当前 值 。 在 后 续 章 节 中 ， 我 们 会 将 可 返 代 对 象 的 每 一 行 或 每 一 个 
值 传 入 一 个 函数 ， 对 数据 进行 清洗 或 修改 ， 然 后 再 添加 到 新 列表 中 。 列 表 生 成 式 是 易 读 易 
用 的 语法 一 个 很 好 的 例子 ， 这 也 是 Python 广为人知 的 特点 。 用 for 循环 也 可 以 实现 相同 的 
功能 ， 但 是 代码 量 更 大 : 

new_list = [] 


for x in iter_x: 
new_list.append(func(x)) 











可 以 看 出 ， 列 表 生 成 式 的 代码 比较 简短 ， 性 能 更 好 ， 也 更 节省 内 存 。 


我 们 希望 将 data_rows 中 字典 标题 替换 为 文件 里 可 读 性 较 强 的 标题 。 从 输出 里 可 以 看 出 ， 
header_rows 字典 里 同时 包含 短 标题 和 长 标题 。 短 标题 包含 在 Name 字段 ， 可 读 性 更 强 的 长 
标题 包含 在 Label 字段 。 利 用 一 些 Python 字符 串 方 法 可 以 将 二 者 轻松 匹配 在 一 起 : 
for data_dict in data_rows: @ 
for dkey, dval ;in data dict.items(): @ 
for header_dict in header_rows: © 
for hkey, hval in header dict.items(): 
if dkey == hval: @ 
print 'match!’ 


@ 人 遍历 每 一 条 数据 记录 。 我 们 将 用 每 一 个 字典 的 键 与 标题 匹配 。 

@ 遍历 每 一 行 数据 的 键 和 值 ， 这 样 就 可 以 将 所 有 键 替 换 成 可 读 性 更 强 的 标题 标签 (要 查看 
数据 字典 里 每 一 个 键 值 对 ， 我 们 用 的 是 Python 字典 的 items 方法 )。 

和 @ 遍历 所 有 标题 行 ， 这 样 我 们 可 以 得 到 可 读 性 更 强 的 标签 。 这 并 不 是 最 快 的 方法 ， 但 可 以 
保证 不 会 有 遗漏 。 

@ 如 果 数 据 列表 的 键 (MWB3、MWB7、MWB4、MWB5…) 和 标题 字典 的 值 相同 ， 那 么 打印 
'match!' 表示 二 者 相互 匹配 。 

运行 代码 ， 我 们 发 现 有 很 多 匹配 项 。 下 面 我 们 来 看 一 下 ， 能 否 用 类 似 的 逻辑 将 标题 替换 成 更 

好 的 标题 。 我 们 知道 将 二 者 匹配 是 相当 容易 的 。 但 我 们 只 找到 了 想 要 匹配 的 那些 行 。 我 们 来 

看 一 下 能 否 找到 一 种 方法 ， 将 data_rows 每 一 项 的 键 与 header_rows 每 一 项 的 值 相 匹配 : 


new_rows = [] ©O@ 























for data_dict in data_rows: 
new_row = {}@ 
for dkey, dval in data_dict.items() : 
for header_dict in header_rows: 
if dkey in header_dict.values(): © 
new_row[header_dict.get('LabeL')] = dval @ 
new_rows.append(new_row) © 
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@ 创建 一 个 新 列表 ， 里 面包 含 的 是 清洗 过 的 行 数据 。 

加 为 每 一 行 创建 一 个 新 字典 。 

四 这 里 我 们 用 的 是 字典 的 values 方法 ， 而 不 是 人 壳 历 标题 行 的 所 有 和 键 值 对 。 这 一 方法 返回 
的 是 仅 由 字典 的 值 组 成 的 列表 。 我 们 还 用 到 了 Python 的 in 方法 ， 用 来 测试 一 个 对 象 是 
否 包含 在 某 个 列表 中 。 在 本 行 代 码 中 ， 对 象 是 我 们 的 键 ， 或 缩写 字符 串 ， 而 列表 是 标题 
字典 的 值 组 成 的 列表 〈 里 面包 含 缩写 短 标题 )。 如 果 本 行 代码 为 真 ， 我 们 就 找到 了 一 个 
匹配 行 。 

@ 每 找到 一 个 匹配 ， 都 将 其 添加 到 new_row 字典 中 。 将 字典 的 键 设置 为 标题 行 中 Label 对 
应 的 值 ， 也 就 是 将 短 标题 (Name 对 应 的 值 ) 替换 为 可 读 性 更 好 的 长 标题 (Label 对 应 的 
值 )， 并 将 字典 的 值 设置 为 数据 行 的 值 (dval)。 

© 将 清洗 过 的 新 数据 添加 到 新 列表 中 。 这 样 做 是 为 了 保证 我 们 找到 了 所 有 的 匹配 ， 然 后 再 
运行 后 面 的 代码 。 


将 新 列表 第 一 项 打印 出 来 ， 可 以 看 出 ， 我 们 已 经 成 功 提 高 了 数据 的 可 读 性 : 


In [8]: new_rows[0] 




















上 











Out[8]: { 
'AIDS Virus from mother to child during delivery': 'Yes', 
'AIDS virus from mother to child during pregnancy': 'DK', 


'AIDS virus from mother to child through breastfeeding': 'DK', 
'Age': '25-29', 
'Age at first marriage/union': '29', 





要 检查 函数 的 缩 进 是 否 正确 ， 一 个 简单 的 方法 是 观察 具有 相同 缩 进 的 其 他 代 
码 。 不 停 癌 自己 : 其 他 代码 这 一 步 的 逻辑 是 什么 ?我 的 代码 应 该 何 时 继续 下 
一 步 ? 














对 于 数据 清洗 问题 ， 解 决 方法 远 不 止 一 种 。 那 么 对 于 我 们 标题 可 读 性 较 差 的 问题 ， 我 们 来 
看 一 下 能 否 用 其 他 方法 解决 。 
2. 合并 问题 与 答案 
修复 标签 问题 的 另 一 种 方法 是 Python 的 zip 方法 : 
from csv import reader ©@ 


data_rdr = reader(open('data/unicef/mn.csv', 'rb')) 
header_rdr = reader(open('data/unicef/mn_headers.csv', 'rb')) 


data_rows = [d for d in data_rdr] 
header_rows = [h for h in header_rdr] 


print len(data_rows[0]) © 
print Len(header_rows) 


@ 这 次 我 们 用 的 是 简单 的 reader 类 ， 而 不 是 DictReader。reader 为 每 一 行 创建 的 是 一 个 
列表 ， 而 不 是 一 个 字典 。 由 于 我 们 要 用 的 是 zip 方法 ， 需 要 的 是 列表 而 不 是 字典 ， 这 样 
我 们 就 可 以 将 标题 列表 与 数据 列表 合并 在 一 起 。 
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名 这 几 行 代 码 创建 标题 列表 和 数据 列表 ， 并 查看 它们 的 长 度 是 否 相同 。 


啊呀 一 一 打印 结果 显示 ， 数 据 列表 长 度 与 标题 列表 长 度 并 不 相同 ! 我 们 的 数据 有 159 行 ， 
而 标题 列表 中 有 210 个 标题 。 这 说 明 ， 与 津巴布韦 数据 集 相 比 ，MICS 在 其 他 国家 可 能 问 
了 更 多 问题 ， 或 者 提供 了 更 多 的 备 选 问题 。 
我 们 需要 进一步 研究 数据 集中 都 用 了 哪些 标题 ， 哪 些 标 题 是 不 需要 的 。 我 们 仔细 观察 一 
下 ， 找 出 没有 正确 对 应 的 那些 标题 : 

In [22]: data_rows[0] 


out[22]: ['', 
“HHT1 "> 




















In [23]: header_rows[ :2] 
Out[23]: [ 
['Name', 'Label', 'Question'], 
['HH1', 'Cluster number', '']] 
好 吧 ， 我 们 可 以 很 清楚 地 看 到 ，data_rows 的 第 二 行 与 header_rows 中 索引 数 为 1 的 值 对 
应 。 找 出 不 匹配 的 那些 行 ， 然 后 将 它们 从 header_rows 中 删除 ， 这 样 我 们 就 可 以 将 数据 正 
确 地 合并 : 


bad_rows = [] 


for h in header_rows : 
if h[0] not ;in data_rows[0]: © 
bad_rows.append(h) @ 


for h in bad_rows : 
header_rows .remove(h) © 


print Len(header_rows ) 


@ 测试 标题 行 的 第 一 个 元 素 (标题 的 缩写 版 本 ) 是 否 包含 在 数据 列表 的 第 一 行 中 (所 有 的 
标题 缩写 ) 。 

@ 将 不 匹配 的 标题 行 添 加 到 新 列表 bad_rows 中 。 下 一 步 我 们 将 利用 这 个 列表 来 判断 需要 
删除 哪些 行 。 

四 利用 列表 的 remove 方法 从 列表 中 删除 指定 的 一 行 。 当 你 能 够 指出 想 从 列表 中 删除 的 某 

一 行 (或 某 些 行 ) 时 ， 这 个 方法 往往 是 很 有 用 的 。 

啊 哈 ! 现在 我 们 已 经 几乎 完成 匹配 了 。 我 们 的 数据 列表 中 有 159 个 值 ， 标 题 列 表 中 有 150 
个 值 。 下 面 我 们 来 看 一 下 ， 为 什么 标题 列表 里 不 需要 这 9 个 匹配 的 标题 : 
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all_short_headers = [h[0] for h ;in header_rows] © 


for header in data_rows[0]: @ 
if header not in aLL_short_headers: © 
print 'mismatch!', header @ 


@ 利用 Python 列表 生成 式 采 集 每 一 个 标题 行 的 第 一 个 元 素 ， 生 成 一 个 由 所 有 标题 缩写 组 
成 的 列表 。 

名 遍历 数据 集中 的 所 有 标题 ， 检 查 哪 些 没有 包含 在 清洗 后 的 标题 列表 中 。 

@ 挑 出 不 包含 在 缩写 列表 中 的 标题 。 

@ 用 print 语句 打印 出 所 有 的 不 匹配 项 。 如 果 你 需要 将 两 个 字符 串 打印 在 同一 行 中 ， 只 需 
要 在 中 间 加 一 个 ,， 就 可 以 用 空格 将 两 个 字符 串 连 接 在 一 起 。 


运行 代码 ， 输 出 应 该 是 这 样 的 : 


mismatch! 
mismatch! MDV1F 
mismatch! MTA8E 
mismatch! mwelevel 
mismatch! mnweight 
mismatch! wscoreu 
mismatch! windex5u 
mismatch! wscorer 
mismatch! windex5r 


从 我 们 目前 所 知 和 输出 结果 来 看 ， 只 有 几 个 不 匹配 标题 ( 带 有 大 写字 母 的 那儿 个 ) 是 需要 
处 理 的 。 小 写 的 那些 标题 是 用 于 UNICEF 内 部 方法 的 ， 与 我 们 要 研究 的 问题 无 关 。 

由 于 我 们 创建 的 从 世界 银行 网 站 采集 标题 的 网 络 念 虫 没 有 找到 MDV1F 和 MTA8E 这 两 个 变量 ， 
所 以 我 们 需要 用 SPSS 阅读 器 来 查看 它们 的 含义 。( 另 一 种 方法 是 删 掉 这 几 行 ， 继 续 下 一 
步 。) 















































在 处 理 原 始 数 据 时 ， 有 时 你 会 发 现 ， 想 要 将 数据 转换 成 可 用 的 格式 ， 你 需要 
舍弃 不 需要 的 数据 或 难以 清洗 的 数据 。 归 根 结 底 ， 决 定 因素 并 不 在 于 是 否 懒 
惰 ， 而 在 于 数据 对 你 的 问题 是 否 重要 。 





























打开 SPSS 阅读 器 后 可 以 看 到 ，MDV1F 对 应 的 标签 是 “如 果 妻 子 不 忠 ， 殴 打 妻 子 是 否 合 
理 ? “， 同 时 还 与 关于 家 庭 暴力 的 其 他 一 系列 长 问题 相对 应 。 其 他 问题 也 有 一 些 是 关于 家 
庭 暴 力 的 ， 所 以 最 好 保留 这 个 问题 。 研 究 MTA8E 这 个 标题 发 现 ， 它 对 应 的 一 系列 不 同 的 问 
题 ， 都 是 关于 某 人 吸食 烟草 的 类 型 。 我 们 已 经 将 两 个 标题 都 添加 到 新 的 文件 (mn_headers_ 
updated.csv) 中 。 


现在 重新 运行 之 前 的 代码 ， 这 次 用 的 是 修改 后 的 标题 文件 。 

我 们 来 看 一 下 所 有 的 代码 ， 修 改 其 中 几 处 ， 这 样 就 可 以 将 标题 和 数据 合并 在 一 起 。 下 面 这 
个 脚本 需要 大 量 内 存 ， 如 果 你 计算 机 的 RAM 小 于 4GB 的 话 ， 我 们 建议 在 IPython 终端 或 
IPython notebook 中 运行 ， 这 样 可 以 避免 出 现 段 错误 (segmentation fault) : 
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from csv import reader 


data_rdr = reader(open('data/unicef/mn.csv', 'rb')) 
header_rdr = reader(open('data/unicef/mn_headers_updated.csv', 'rb')) 


data_rows = [d for d in data_rdr] 
header_rows = [h for h in header_rdr if h[0] ;in data_rows[0]] O@ 


print len(header_rows) 
all_short_headers = [h[0] for h in header_rows] 
skip_ index = [] @ 


for header in data_rows[0]: 
if header not in all_short_headers: 
index = data_rows[0].index(header) © 
skip_index.append(index) 


new_data = [] 


for row in data_rows[1:]: @ 
new_row = [] 
for i, d in enumerate(row): © 
if i not in skip index: @ 
new_row.append(d) 
new_data.append(new_row) @ 


zipped_data = [] 


for drow in new_data: 
zipped_data.append(zip(header_rows, drow)) © 


@ 使 用 列表 生成 式 快速 删除 不 匹配 的 标题 。 可 以 看 到 ， 我 们 还 在 列表 生成 式 中 使 用 了 if 
语句 。 本 行 代码 的 作用 是 ， 如 果 标 题 行 第 一 个 元 素 (标题 缩写 ) 包含 在 数据 行 的 标题 
中 ， 那 么 将 该 标题 行 添 加 到 新 列表 中 。 

名 创建 新 列表 ， 用 来 保存 我 们 不 希望 保存 的 数据 行 的 索引 编写。 

人 @ 利用 Python 列表 的 index 方 法， 返回 我 们 不 需要 的 索引 编写， 因为 这 些 索 引 编 号 对 应 
的 标题 没有 包含 在 缩写 列表 中 。 下 一 行 代 码 会 将 不 匹配 标题 行 的 索引 编号 保存 下 来 ， 这 
样 我 们 就 可 以 不 采集 这 些 数 据 。 

@ 对 保存 调查 数据 的 列表 做 切片 ， 只 选取 其 中 的 数据 行 ( 除 了 第 一 行 外 的 所 有 行 )， 然 后 
对 其 进行 志 历 。 

@ 利用 enumerate 国 数 找 出 不 需要 保存 的 那些 数据 行 。 这 个 函数 接受 一 个 可 夺 代 对 象 (本 

例 中 是 数据 行列 表 )， 返 回 每 一 个 元 素 的 索引 编号 和 值 。 该 函数 将 返回 的 第 一 个 值 ( 索 

引 编号 ) 赋值 给 1， 将 数据 值 赋值 给 d。 

@ 检查 并 确保 索引 编号 不 在 我 们 不 希望 保存 的 列表 中 。 

@ 检查 完 数据 行 中 的 每 一 项 (或 每 一 “ 列 ”) 之 后 ， 将 新 的 数据 条 目 添加 到 new_data 列 

表 中 。 

@ 将 完全 匹配 的 标题 和 数据 合并 在 一 起 ， 并 添加 到 新 数组 zipped_data 中 。 
































A 
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现在 我 们 可 以 将 新 数据 集 的 一 行 打印 出 来 ， 看 看 与 我 们 的 预期 是 否 相 同 : 


In [40]: zipped_data[0] 

Out[40]: [(['HH1', 'Cluster number', ''], '1'), 
(['HH2', 'Household number', ''], '17'), 

(['LN', 'Line number', ''], '1'), 

(['MWM1', 'Cluster number', ''], '1'), 

(['MWM2', 'Household number', ''], '17'), 

(['MWM4', "Man's line number", ''], '1'), 

(['MWM5', 'Interviewer number', ''], '14'), 
(['MWM6D', 'Day of interview', ''], '7'), 

(['MWM6M', 'Month of interview', ''], '4'), 
(['MWM6Y', 'Year of interview', ''], '2014'), 
(['MWM7', "Result of man's interview", ''], 'Completed'), 
(['MWM8', 'Field editor', ''], '2'), 

(['MWM9', 'Data entry clerk', ''], '20'), 
(['MWM1QH', 'Start of interview - Hour'’, ''], '17'), 


我 们 已 经 将 所 有 的 问题 和 回答 保存 在 元 组 中 ， 每 一 行 中 所 有 的 标题 和 数据 都 是 匹配 好 的 。 
为 了 检查 这 些 匹配 是 否 正 确 ， 我 们 来 看 一 下 该 行 的 结尾 : 

(['TN11', 'Persons slept under mosquito net last night ' ， 

'Did anyone sleep under this mosquito net Last night?'], 'NA'), 

(['TN12_1', 'Person 1 who slept under net', 

'Who slept under this mosquito net last night?'], 'Currently married/in union'), 


(['TN12_2', 'Person 2 who slept under net', 
'Who slept under this mosquito net Last night?'], '0'), 


数据 看 起 来 很 奇怪 。 似 乎 出 现 了 一 些 匹配 错误 。 我 们 来 做 一 个 真实 性 核查 (reality check)， 
利用 刚 学 过 的 zip 方法 来 检查 标题 是 否 正确 匹配 : 


data_headers = [] 














for i, header in enumerate(data_rows[0]): © 
if i not in skip_index: 名 
data_headers.append(header) 


header_match = zip(data headers, all_short headers) © 


print header_match 


@ 遍历 数据 列表 中 的 所 有 标题 。 
四 利用 if.….not in... 语句 ， 只 有 当 索 引 编号 不 包含 在 skip_index 中 时 才 会 返回 True。 
@ 将 两 个 标题 列表 合并 在 一 起 ， 这 样 我 们 可 以 观察 寻找 不 匹配 项 。 


啊 哈 ! 你 发 现 错误 了 吗 ? 











('MHA26' ，'MHA26' ) ， 
('MHA27' ，'MHA27' ) ， 
("MMC1' , 'MTA1'), 
("MMC2' , 'MTA2'), 
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在 这 一 项 之 前 的 匹配 都 是 正确 的 ， 在 这 一 项 之 后 ， 我 们 的 标题 文件 和 数据 文件 的 问题 顺序 
出 现 了 不 一 致 。 由 于 zip 方法 不 会 改变 列表 元 素 的 顺序 ， 我 们 必须 首先 调整 标题 的 顺序 ， 
使 其 与 数据 集 的 顺序 一 致 。 下 面 是 修改 后 的 代码 ， 尝 试 将 数据 正确 匹配 ; 


from csv import reader 




















data_rdr = reader(open('data/unicef/mn.csv', 'rb')) 
header_rdr = reader(open('data/unicef/mn_headers_updated.csv', 'rb')) 


data_rows = [d for d in data_rdr] 
header_rows = [h for h in header_rdr if h[0] ;in data_rows[0]] 


all_short_headers = [h[0] for h in header_rows] 


skip_index = [] 
final_header_rows = [] ©O© 


for header ;in data_rows[0]: 
if header not in all_short_headers: 
index = data_rows[0].index(header) 
skip_index.append(index) 
else: © 
for head in header_rows: © 
if head[0] == header: @ 
final_header_rows.append(head) 
break © 


new_data = [] 


for row in data_rows[1:]: 
new_row = [] 
for i, d in enumerate(row): 
if i not in skip_index: 
new_row.append(d) 
new_data.append(new_row) 


zipped_data = [] 


for drow in new_data: 
zipped_data.append(zip(final_header_rows, drow)) @ 


@ 创建 新 列表 ， 包 含 顺 序 正 确 的 最 终 标题 行 。 

四 利用 else 语句 ， 只 将 匹配 的 列 添加 到 列表 中 。 

上 @ 志 历 header_rows， 直 到 找到 匹配 为 止 。 

@ 检查 标题 缩写 是 否 匹 配 。 我 们 用 == 来 检查 匹配 。 

@ 找到 匹配 后 ， 利 用 break 退出 for head in header_rows 循环 。 这 样 速度 更 快 ， 而 且 不 
会 对 结果 造成 影响 。 

© 将 新 的 finaL_header_rows 列表 与 标题 行 按 顺 序 正确 地 合并 在 一 起 。 


运行 新 代码 ， 我 们 看 一 下 第 一 个 数据 条 目的 结尾 : 


一生 











(['TN12_3', 'Person 3 who slept under net ' ， 

'Who slept under this mosquito net Last night?'], 'NA'), 
(['TN12_4', 'Person 4 who slept under net', 

'Who slept under this mosquito net Last night?'], 'NA'), 
(['HH6', 'Area', ''], 'Urban'), 

(['HH7', 'Region'’, ''], 'Bulawayo'), 

(['MWDOI', 'Date of interview women (CMC)', ''], '1372'), 
(['MWDOB', 'Date of birth of woman (CMC)', ''], '1013'), 
(['MWAGE', 'Age', ''], '25-29'), 


看 起 来 匹配 得 很 好 。 我 们 可 以 写 出 更 加 清晰 的 代码 ， 但 我 们 已 经 找到 一 个 好 方法 ， 可 以 保 
存 绝 大 部 分 数据 并 将 数据 与 标题 合并 在 一 起 ， 而 且 速 度 还 很 快 。 


关于 你 需要 的 数据 完整 性 ， 以 及 在 你 的 项 目 中 需要 为 数据 清洗 花费 多 少 精 
力 ， 你 总 是 需要 作出 评估 。 如 果 你 只 用 甚 中 一 部 分 数据 ， 可 能 就 不 需要 保存 
所 有 数据 。 如 果 数 据 集 是 你 的 主要 研究 来 源 ， 那 么 值得 你 花费 时 间 和 精力 来 
保证 数据 完整 性 。 














本 市 我 们 学 习 了 一 些 新 的 工具 和 方法 ， 可 以 发 现 错误 或 需要 清洗 的 数据 ， 并 结合 我 们 学 
过 的 Python 知识 和 解决 问题 的 方法 来 解决 这 些 问 题 。 数 据 清洗 第 一 步 工 作 (替换 标题 文 
本 ) 舍弃 了 一 些 数 据 列 ,保存 了 其 余 的 数据 列 ， 并 没有 显示 标题 有 缺失 。 但 只 要 最 后 得 
到 的 数据 集中 包含 我 们 需要 的 数据 列 ， 这 种 方法 就 能 满足 我 们 的 要 求 ， 速 度 更 快 ， 代 码 
量 也 更 少 。 

在 数据 清洗 过 程 中 思考 这 几 类 问题 。 保 持 数据 完整 性 是 不 是 很 重要 ? 如 果 是 的 话 ， 值 得 花 
几 个 小 时 ? 有 没有 简单 的 方法 ， 既 可 以 适当 清洗 数据 ， 又 可 以 保存 你 需要 的 所 有 内 容 ? 有 
没有 可 重复 的 方法 ?在 清洗 数据 集 时 这 些 问题 可 以 为 你 提供 指导 。 

现在 我 们 已 经 有 了 一 个 良好 的 数据 列表 ， 我 们 可 以 继续 学 习 其 他 类 型 的 数据 清洗 。 


7.2.2 ”数据 格式 化 

数据 清洗 最 常见 的 形式 之 一 ， 就 是 将 可 读 性 很 差 或 根本 无 法 读 取 的 数据 和 数据 类 型 转换 成 
可 读 性 较 强 的 格式 。 特 别 是 如 果 需 要 用 数据 或 可 下 载 文 件 来 撰写 报告 ， 你 需要 将 其 由 机 器 
可 读 转 换 成 人 类 可 读 。 如 果 你 的 数据 需要 与 API 一 起 使 用 ， 你 可 能 需要 特殊 格式 的 数据 
类 型 。 

对 于 格式 化 字符 串 和 数字 ，Python 为 我 们 提供 了 大 量 方法 。 在 第 5 章 讲 到 调试 并 显示 
结果 时 ， 我 们 用 过 %r， 作 用 是 以 字符 串 格 式 或 Unicode 格式 给 出 对 象 的 Python 表示 。 
Python 还 有 字符 串 格 式 化 方法 %s 和 %d， 分 别 代表 字符 串 和 数字 。 它 们 通常 与 print 命令 
一 起 使 用 。 

将 对 象 转换 成 字符 串 或 Python 表示 还 有 一 个 更 高 级 的 方法 ， 就 是 利用 format 方法 。 正 如 
Python 官方 文档 (https://docs.python.org/2/library/stdtypes.html#str.format) 所 述 ， 这 个 方 
法 可 以 定义 一 个 字符 串 ， 并 把 数据 作为 参数 或 关键 字 参 数 传人 字符 串 。 我 们 来 仔细 看 一 下 
format 方法 : 
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for x in zipped_data[0]: 
print 'Question: {}\nAnswer: {}'.format( @ 
x[0], x[1]) @ 


@ format 用 {} 表示 数据 传 入 的 位 置 ， 用 \n 换行 符 来 表示 换行 。 
@ 这 里 我 们 传人 的 是 问题 和 答案 组 成 的 元 组 的 前 两 个 值 。 


你 应 该 会 看 到 像 这 样 的 输出 : 


Question: ['MMT9', 'Ever used Internet', 'Have you ever used the Internet?'] 
Answer: Yes 

Question: ['MMT10', 'Internet usage in the last 12 months', 

'In the Last 12 months, have you used the Internet?'] 

Answer: Yes 


很 难 读 懂 这 是 什么 意思 。 我 们 试 着 对 其 进一步 清洗 。 从 输出 中 可 以 看 出 ， 在 问题 列表 中 ， 
索引 编号 为 0 的 是 缩写 ， 索 引 编号 为 1 的 是 问题 描述 。 我 们 希望 只 用 列表 的 第 二 部 分 ， 可 
以 作为 一 个 很 好 的 标题 。 我 们 再 试 一 次 : 

for x in zipped_data[0]: 


print 'Question: {[1]}\nAnswer: {}'.format( 
x[0], x[1]) 0 


@ 这 次 我 们 用 格式 语法 1 来 挑 出 对 应 索引 编号 的 数据 ， 使 输出 结果 可 读 性 更 强 。 
我 们 再 来 看 一 下 输出 结果 : 


Question: Frequency of reading newspaper or magazine 
Answer: Almost every day 

Question: Frequency of listening to the radio 
Answer: At least once a week 

Question: Frequency of watching TV 

Answer: Less than once a week 


现在 可 读 性 就 很 好 了 。 好 耶 ! 下 面 我 们 看 一 下 format 方法 的 其 他 用 法 。 当 前 的 数据 集中 没 
有 很 多 数字 ， 所 以 我 们 用 几 个 示例 数字 ， 展 示 不 同 数字 类 型 的 更 多 格式 化 方法 : 
example dict = { 
'float_number': 1324.321325493， 


"very_Large_integer ' : 43890923148390284， 
"percentage ' : .324， 












































} 


string_to_print = "float: {float_number:.4f}\n" © 
string_to_print += "integer: {very_large integer:,}M\n" 名 
string_to_print += "percentage: {percentage:.2%}" © 


print string_ to_print.format(**example_dict) @ 


@ 这 里 用 到 了 字典 ， 利 用 键 访问 字典 的 值 。 我 们 用 : 来 分 隔 键 名 和 格式 。.4f 的 意思 是 ， 
将 数字 转换 成 浮 点 数 (f)， 保 留 四 位 小 数 (.4)。 

名 数字 格式 不 变 〈 键 名 和 冒号 ) ， 揪 入 逗号 〈,) 作为 千 位 分 隔 符 。 

@ 数字 格式 不 变 ( 键 名 和 冒号 )， 插 入 百 分 号 〈%) ， 小 数 部 分 保留 两 位 有 效 数 字 (.2)。 
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@ 对 长 字符 串 调 用 format 方法， 并 传 入 数据 字典 ， 用 ** 将 字典 拆 包 (unpack)。 将 
Python 字典 拆 包 ， 也 就 是 将 字典 的 键 / 值 拆 开 ， 拆 包 后 的 键 和 值 被 传递 给 format 方法 。 





阅读 Python 格式 化 的 文档 和 实例 (https:/docs.python.org/2/library/string. 
html#format-string-syntax) 可 以 了 解 更 多 高 级 格式 化 的 内 容 ， 例 如 利用 
format 方法 删除 不 必要 的 空格 、 按 长 度 对 齐 数据 和 解数 学 方程 。 











除了 字符 串 和 数字 ， 用 Python 格式 化 日 期 也 很 容易 。Python 的 datetime 模块 中 有 许多 方 
法 ， 可 以 格式 化 Python 中 已 有 (或 生成 ) 的 日 期 ， 也 可 以 读 取 任 意 日 期 格式 ， 然 后 创建 
Python 对 象 (date 对 象 、datetime 对 象 、time 对 象 ) 。 











Python 中 日 期 格式 化 最 常用 的 方法 是 strftime 和 strptine， 将 字符 串 转 
换 成 日 期 最 常用 的 也 是 这 两 个 方法 ， 如 果 你 用 其 他 编程 语言 做 过 日 期 格 
式 化 的 话 ， 可 能 会 熟悉 这 两 种 格式 化 方法 。 想 了 解 更 多 内 容 ， 请 阅读 关 
于 “strftime 和 strptime 特 性 ”(https://docs.python.org/2/library/datetime. 
html#strftime-strptime-behavior) 的 官方 文档 。 








datetime 模块 的 strptime 方法 可 以 将 字符 串 或 数字 转换 成 Python 的 datetime 对 象 。 如 果 
你 希望 将 日 期 和 时 间 保 存 到 数据 库 中 ， 或 者 需要 调整 时 区 或 增加 一 个 小 时 ， 这 个 方法 都 很 
有 用 。 转 换 成 Python 对 象 之 后 ， 你 可 以 充分 利用 Python 处 理 日 期 的 功能 ， 很 容易 将 其 重 
新 转换 成 人 类 可 读 或 机 器 可 读 的 字符 串 。 


我 们 来 看 一 下 zipped_data 列表 中 保存 的 采访 起 止 时 间 数 据 。 首 先 我 们 来 回顾 一 下 ， 打 印 
出 前 几 条 数据 记录 ， 熟 悉 一 下 我 们 即将 使 用 的 数据 : 


for x in enumerate(zipped_data[0][:20]): © 
print x 











(7, (['MWM6D', 'Day of interview', ''], '7')) 

(8, (['MWM6M', 'Month of interview'’, ''], '4')) 

(9, (['MWM6Y', 'Year of interview’', ''], '2014')) 

(10, (['MWM7', "Result of man's interview", ''], 'Completed')) 
(11, (['MWwM8', 'Field editor', ''], '2')) 

(12, (['MWM9', 'Data entry clerk', ''], '20')) 

(13, (['MWM1QH', 'Start of interview - Hour', ''], '17')) 

(14, (['MWM1QOM', 'Start of interview - Minutes', ''], '59')) 
(15, (['MWM11H', 'End of interview - Hour', ''], '18')) 

(16, (['MWM11M', 'End of interview - Minutes', ''], '7')) 


@ 利用 Python 的 enumerate 国 数 来 查看 我 们 需要 处 理 哪些 行 的 数据 。 


有 了 全 部 数据 ， 现 在 我 们 需要 找到 采访 开始 和 结束 的 具体 时 间 。 利 用 类 似 的 数据 ， 我 们 可 
以 判断 采访 时 间 更 可 能 出 现在 早上 还 是 晚上 ， 以 及 采访 时 长 是 否 会 影响 回答 的 数量 。 我 们 
还 可 以 找 出 哪个 是 第 一 次 采访 ， 哪 个 是 最 后 一 次 采访 ， 然 后 计算 平均 每 次 采访 所 用 的 时 间 。 
我 们 尝试 用 strptime 将 数据 导入 Python 的 datetime 对 象 : 
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from datetime import datetime 


start_string = '{}/{}/{} {}:{}'.fornat( © 
zipped_data[0][8][1], zipped_data[0][7][1], zipped_data[0][9][1], @ 
zipped_data[0][13][1], zipped_data[0][14][1]) 


print start_string 
start_ time = datetime.strptime(start_string, '%m/%d/%Y %H:%M') © 


print start_time 


@ 创建 一 个 字符 串 模 板 (base string)， 用 于 解析 多 个 数据 条 目 中 的 数据 。 本 行 代 码 使 用 的 
是 美国 人 常用 的 日 期 格式 月、 日、 年 ， 然 后 是 小 时 和 分 钟 。 

@ 数据 读 取 格式 如 下 : zipped_data[ 第 一 个 数据 条 目 ][ 数据 行 编号 (由 enumerate 得 到 ) ] 
[ 数据 本 身 ]。 利 用 第 一 个 数据 条 目测 试 ， 索 引号 为 8 的 那 一 行 是 月 ， 索 引号 为 7 的 那 
一 行 是 日 ， 索 引号 为 9 的 那 一 行 是 年 。 每 个 元 组 的 第 二 个 元 素 〈[1]) 是 我 们 需要 的 数据 。 

@ 调用 strptime 方法 ， 输 入 的 是 一 个 日 期 字符 串 和 一 个 格式 字符 串 ， 格 式 字符 串 的 语法 
可 参见 Python 官方 文档 (https://docs.python.org/2/library/datetime.html#strftime-strptime- 
behavior)。%m/%d/%Y 代表 月 、 日 、 年 ，%H:‰M 代表 小 时 和 分 钟 。 这 个 方法 返回 一 个 
Python 的 datetime 对 象 。 

















如 果 你 用 了 Python 运行 代码 ， 你 不 需要 用 print 来 查看 你 感 兴趣 的 每 一 行内 
容 。 常 见 的 做 法 是 ， 只 需 输 入 变量 名 ， 就 可 以 在 交互 式 终端 中 查看 输出 的 内 
容 。 你 甚至 还 可 以 用 Tab 键 自动 补 全 。 








有 了 上 面 的 代码 ， 我 们 可 以 创建 一 个 通用 的 日 期 字符 串 ， 然 后 利用 datetime 库 的 strptime 
方法 来 解析 。 在 我 们 的 数据 集 里 ， 由 于 日 期 数据 的 每 一 项 都 是 单独 的 元 素 ， 我 们 还 可 以 自 
己 创建 Python 的 datetime 对 象 ， 不 必 使 用 strptime 方法 。 我 们 来 看 一 下 : 


from datetime import datetime 





end_time = datetime( © 
int(zipped_data[0][9][1]), int(zipped_data[0][8][1]), @ 
int(zipped_data[0][7][1]), int(zipped_data[0][15][1]), 
int(zipped data[0][16][1])) 


print end_time 
@ 将 整数 直接 传递 给 datetime 模块 的 datetime 类 ， 生 成 一 个 日 期 对 象 。 我 们 传 入 整数 作 
为 参数 ， 整 数 之 间 用 去 号 隔 开 。 
@ 由 于 datetime 只 接受 整数 ， 本 行 代码 将 所 有 的 数据 转换 成 整数 。datetime 输入 参数 的 
顺序 是 年 、 月 、 日 、 时 、 分 ， 所 以 我 们 必须 相应 调整 数据 的 顺序 。 
如 你 所 见 ， 利 用 更 少 的 代码 ( 见 上 面 的 例子 )， 我 们 可 以 得 到 采访 结束 时 间 的 datetime 对 
象 。 现 在 我 们 有 了 两 个 datetime 对 象 ， 可 以 对 它们 做 一 些 数学 运算 了 | 


duration = end tinme - start tine © 

















print duration @ 

print duration.days © 

print duration.total_seconds() @ 

minutes = duration.total_seconds() / 60.0 ©@ 


print minutes 


@ 用 结束 时 间 减 去 开始 时 间 ， 计 算出 采访 时 长 。 

@ 打印 一 个 新 的 Python 日 期 类 型 。 这 是 一 个 timedelta 对 象 。timedelta 会 给 出 两 个 时 间 
对 象 的 时 间 差 ， 还 可 用 于 改变 时 间 对 象 ， 详 见 datetime 文档 (https://docs.python.org/2/ 
library/datetime.html?highlight=timedelta#datetime.timedelta) 。 

四 利用 内 置 的 days 属性 来 查看 timedelta 对 象 里 包含 了 多 少 天 。 

@ 调用 timedelta 对 象 的 total_seconds 方法 ， 计 算 时 间 差 包含 多 少 秒 。 结 果 精 确 到 微 秒 。 

@ 计算 分 钟 数 ， 因 为 timedelta 对 象 没 有 分 钟 属性 。 

运行 代码 ， 我 们 知道 第 一 次 采访 时 长 8 分 钟 一 一 但 这 是 不 是 采访 的 平均 时 长 呢 ? 利用 刚 学 

的 datetime 模块 中 的 方法 解析 整个 数据 集 ， 我 们 可 以 计算 出 采访 平均 时 长 。 我 们 前 面 做 了 

一 些 简单 的 datetime 数学 运算 ， 并 学 习 了 如 何 利用 数据 集 创建 Python 的 datetime 对 象 。 

下 面 我 们 来 看 一 下 ， 能 否 将 这 些 新 的 datetime 对 象 重新 转换 成 格式 化 字符 串 ， 用 在 报告 中 

可 以 提高 可 读 性 : 


print end_time.strftime('%m/%d/%Y %H:%M:%S') ©@ 












































print start_time.ctime() @ 
print start time.strftime('%Y-%m-%dT%H:%M:%S') © 


@ strftime 只 能 输入 一 个 参数 ， 就 是 你 希望 显示 的 日 期 格式 。 本 行 代码 输出 美国 标准 时 间 
格式 。 

@ Python 的 datetime 对 象 有 一 个 ctime 方法 ， 可 以 根据 C 语言 的 ctime 标准 输出 datetime 
对 象 。 

加 Python 的 datetime 对 象 可 以 用 你 能 想到 的 任意 格式 输出 字符 串 。 本 行 代码 用 的 是 PHP 
语言 常用 的 时 间 格 式 。 如 果 你 需要 用 特殊 字符 串 格 式 与 API 交互 ，datetime 模块 可 以 

帮 有 到 你 。 


Python 的 datetime 对 象 非 常 有 用 ， 处 理 、 导 入 和 导出 (通过 格式 化 的 方法 ) 这 种 对 象 都 非 
常 简单。 根据 数据 集 的 不 同 ， 你 可 以 利用 这 些 新 方法 将 所 有 的 字符 串 或 Excel 数据 导入 并 
转换 成 datetime 对 象 ， 做 统计 分 析 或 取 平 均值 ， 然 后 再 重新 转换 成 字符 串 用 在 报告 中 。 


我 们 学 到 了 很 多 格式 化 的 方法 和 技巧 。 下 面 我 们 开始 学 习 更 加 细致 的 数据 清洗 方法 。 我 们 
将 学 习 如 何 轻松 发 现 数据 中 的 坏 种 子 (bad seed) ， 以 及 如 何 处 理 它们 。 

7.2.3 找 出 离 群 值 和 不 良 数据 

在 数据 集中 寻找 离 群 值 和 不 良 数据 ， 可 能 是 数据 清洗 中 最 难 的 任务 之 一 ， 需 要 一 段 时 间 才 
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能 做 好 。 即 使 你 对 统计 学 有 很 深刻 的 理解 ， 也 完全 了 解 离 群 值 可 能 会 对 数据 造成 的 影响 ， 
和 庆 二 -本 因 则 由 关 ER 人 


你 要 做 的 是 清洗 数据 ， 不 是 处 理 数据 或 修改 数据 ， 所 以 在 需要 删除 离 群 值 或 
不 良 数据 记录 时 ， 多 花 点 时 间 思 考 如 何 处 理 这 些 数据 。 如 果 你 剔除 离 群 值 使 
数据 归 一 化 ， 应 该 在 最 终结 论 中 明确 说 明 这 一 点 。 


第 9 章 中 我 们 会 讲 到 更 多 寻找 离 群 值 的 方法 ， 但 我 们 先 考 虑 一 些 简 单 的 方法 ， 检 查 你 的 数 
据 集 中 是 否 有 不 良 数据 。 


判断 数据 有 效 性 的 第 一 个 线索 是 数据 来 源 。 我 们 在 第 6 章 中 说 过 ， 你 需要 仔细 审核 数据 
源 ， 确 保 数据 可 信 。 你 还 需要 咨询 数据 的 采集 方法 ， 以 及 数据 是 否 已 经 清洗 过 或 处 理 过 。 


对 于 我 们 这 里 使 用 的 数据 样本 来 说 ， 我 们 知道 UNICEF 调查 有 一 套 标准 的 问题 格式 。 我 们 
知道 这 些 普 查 是 定期 进行 的 。 我 们 还 知道 ， 他 们 在 培训 员工 如 何 正 确 采 访 方面 有 一 套 标 准 
规程 。 这 些 证 据 都 说 明 ， 数 据 是 一 个 好 的 样本 ， 并 不 是 事先 选 定 的 样本 。 相 反 ， 如 果 我 们 
发 现 UNICEF 只 采访 大 城市 的 家 庭 ， 而 忽略 了 农村 人 口 ， 这 可 能 会 导致 选择 偏差 或 抽样 误 
差 。 根 据 你 的 数据 来 源 ， 你 应 该 可 以 找 出 数据 集 可 能 具有 的 偏差 。 






































你 不 可 能 每 次 都 得 到 完美 的 数据 。 但 你 应 该 知道 你 的 数据 可 能 会 有 哪些 取样 
偏差 ， 确 保 你 不 会 根据 片面 的 数据 集 做 出 全 面 性 的 结论 





除了 数据 产 和 数据 偏差 ， 你 还 可 以 通过 以 下 问题 发 现 数据 中 可 能 存在 的 错误 :“ 这 些 数据 
是 否 有 不 一 致 的 地 方 ? ”发 现 错误 数据 的 一 个 简单 方法 就 是 ， 查 看 数据 值 里 是 否 有 错误 。 
例如 ， 你 可 以 浏览 整个 数据 集 ， 查 看 重要 的 数据 值 是 否 有 缺 失 。 你 还 可 以 浏览 整个 数据 
集 ， 判 断 数据 类 型 (例如 整数 、 日 期 、 字 符 串 ) 是 否 正确 匹配 。 在 我 们 的 数据 集 里 尝试 寻 
找 缺 失 数 据 ， 看 看 里 面 是 否 有 这 些 问题 : 

for answer in zipped_data[0]: © 


if not answer[1]: @ 
print answer 


@ 过 历 第 一 个 数据 条 目的 所 有 行 。 


名 测试 某 个 值 是 否 “ 存 在 "。 我 们 要 测试 的 值 是 元 组 的 第 二 个 元 素 ， 我 们 可 以 用 if not 语 
句 来 测试 。 








if not 语句 
Python 可 以 用 简单 的 if not 语 向 来 测试 某 个 值 是 否 存 在 。 试 着 输入 if not None: 
print True。 发 生 了 什么 ? 试 着 在 if not 后 面 加 一 个 空 字符 事 或 索 。 发 生 了 什么 ? 
我 们 知道 ， 我 们 的 数据 是 字符 串 ， 而 且 不 同 于 其 他 数据 集 ，UNICEF 用 空 字符 囊 来 表示 
缺失 数据 (而 不 是 -- 等 )， 所 以 我 们 可 以 通过 测试 字符 串 是 否 存在 来 测试 值 是 否 存 在 。 











根据 你 的 数据 类 型 和 数据 集 不 同 ， 你 可 能 需要 测试 if x is None 或 if len(x) < 1。 
你 需要 在 代码 的 可 读 性 和 简洁 之 间 做 出 平衡 ,， 保 证 代码 具体 而 又 明确 。 记 得 要 遵循 
Python 之 禅 ( 见 8.4 节 )。 





从 代码 的 输出 中 可 以 看 出 ， 第 一 行 没有 明显 缺失 的 数据 。 我 们 要 如 何 测试 整个 数据 集 呢 ? 


for row in zipped_data: © 
for answer in row: © 
if answer[1] is None: © 
print answer 


@ 这 次 我 们 不 仅仅 遍历 第 一 行 ， 而 是 遍历 数据 集 的 每 一 行 。 

@ 我 们 删除 了 前 面 例子 中 的 [6] ， 因 为 我 们 要 对 每 一 行进 行 遍历 。 

四 作为 例子 ， 我 们 在 这 里 测试 是 否 有 None 类 型 的 数据 。 我 们 可 以 知道 是 否 有 空 的 数据 点 ， 
但 无 法 知道 是 否 有 零 或 空 字符 串 。 

可 以 看 出 ， 整 个 数据 集中 没有 明显 缺失 的 数据 ， 但 我 们 来 大 致 浏 览 其 中 一 些 数据 ， 观 察 是 

否 有 不 易 发 现 的 缺失 数据 。 在 前 面 的 print 语句 中 ， 你 可 能 记得 NA 代表 “不 适用 ”(Not 

Applicable ) 。 























虽然 数据 没有 缺失 ， 我 们 可 能 想 知道 到 底 有 多 少 回答 是 NA， 或 者 某 个 问题 
的 回答 中 NA 的 比例 是 否 过 高 。 如 果 样 本 量 太 小 〈 大 多 数 回答 都 是 NA)， 我 
们 可 能 无 法 根据 现 有 数据 得 出 更 一 般 性 的 结论 。 但 如 果 大 部 分 的 回答 都 是 
NA， 我 们 可 能 会 发 现 有 趣 的 事情 (为 什么 这 个 问题 不 适用 于 群体 中 的 大 多 
数 人 呢 ? )。 














对 于 每 一 个 具体 的 问题 ， 我 们 来 看 一 下 回答 是 否 以 NA 为 主 : 
na_count = {7 @O@ 


for row in zipped_data: 
for resp in row: 
question = resp[0][1] @ 
answer = resp[1] 
if answer == 'NA': © 
if question in na_count.keys(): @ 
na_count[question] += 1 @ 
else: 
na_count[question] = 1 @ 


print na_count 


@ 定义 一 个 字典 ,保存 回答 中 包含 NA 的 那些 问题 。 将 数据 保存 在 哈 希 对 象 (比如 字典 ) 
中 ，Python 可 以 快速 方便 地 对 数据 进行 查询 。 字 典 的 键 是 问题 ， 字 典 的 值 是 包含 NA 的 

回答 个 数 。 

@ 将 元 组 第 一 部 分 的 第 二 个 元 素 (问题 描述 ) 保存 在 变量 question 中 。 第 一 个 元 素 〈[9] ) 
是 短 标 题 ， 最 后 一 个 元 素 ([2]) 是 调查 者 的 问题 ， 有 时 这 一 项 是 缺失 的 。 
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@ 利用 Python 的 相等 性 测试 找 出 值 为 NA 的 回答 。 如 果 注 意 到 NA 有 多 种 写法 ， 可 以 利用 
if answer in ["NA"，"na"，"n/a"]: 语句 判断 具有 相同 含义 的 多 个 回答 。 

@ 判断 问题 是 否 包含 在 字典 的 键 中 ， 从 而 判断 问题 是 否 已 经 包含 在 字典 中 。 

@ 如 果 问 题 已 经 包含 在 字典 的 键 中 ， 利 用 Python 的 += 方法 将 字典 的 值 加 1。 

© 如 果 问 题 尚未 包含 在 字典 中 ， 则 将 其 添加 到 字典 中 ， 并 将 其 对 应 的 值 设置 为 1。 


竺 | 我 们 的 数据 集中 有 好 多 NA 回答 啊 。 我 们 大 约 有 9000 行 数据 ， 其 中 一 些 问题 有 超过 
8000 个 NA 回答 。 可 能 这 些 问 题 与 调查 的 人 群 或 年 龄 组 无 关 ， 或 者 与 特定 的 国家 和 文化 没 
有 太 大 关系 。 不 管 怎样 ， 使 用 这 些 NA 问题 的 意义 不 大 ， 无 法 得 出 人 口 调查 的 任何 一 般 性 
结论 。 


在 判断 数据 集 是 否 适用 于 你 的 研究 目的 时 ， 寻 找 数据 集中 的 NA 是 很 有 用 的 。 如 果 发 现 你 
想 要 的 问题 有 大 量 类 似 NA 的 回答 ， 你 可 能 需要 继续 寻找 其 他 数据 产 ， 或 者 重新 思考 你 的 
问题 。 


前 面 我 们 讲 到 了 缺失 数据 ， 现 在 我 们 来 看 一 下 能 否 找到 类 型 离 群 值 (type outlier)。 比 如 
说 ， 如 果 年 份 数 据 栏 中 出 现 了 类 似 'missing' 或 'NA' 这 样 的 字符 串 ， 我 们 就 说 出 现 了 类 
型 离 群 值 。 如 果 只 有 几 个 数据 的 类 型 不 匹配 的 话 ， 我 们 可 能 需要 处 理 离 群 值 或 儿 个 不 良 数 
据 。 如 果 大 部 分 数据 的 类 型 都 不 匹配 的 话 ， 我 们 可 能 要 重新 思考 是 否 要 使 用 这 些 数据 ， 或 
者 找 出 这 些 数 据 看 似 “ 不 良 数据 “的 原因 。 


如 果 很 容易 就 可 以 解释 这 些 不 一 致 的 原因 (比如 这 个 回答 只 适用 于 女性 ， 而 调查 样本 中 男 
女 都 有 )， 那 么 我 们 就 可 以 用 这 些 数据 。 如 果 这 些 不 一 致 没有 明确 的 解释 ， 而 这 个 问题 对 
我 们 的 结果 又 很 重要 ， 我 们 需要 继续 研究 当前 数据 集 ， 或 开始 寻找 能 够 对 不 一 臻 作出 解释 
的 其 他 数据 集 。 

在 第 9 章 中 我 们 会 讲 到 寻找 离 群 值 的 更 多 内 容 ， 但 现在 我 们 来 分 析 一 下 数据 类 型 ， 看 能 否 
在 当前 数据 集中 找 出 明显 的 不 一 致 之 处 。 例 如 ， 我 们 应 该 检查 一 下 ， 那 些 应 该 以 数字 作答 
的 数据 类 型 (比如 出 生年 份 ) 是 否 正确 。 

我 们 来 看 一 下 回答 的 类 型 分 布 。 我 们 将 用 到 前 面 计算 NA 回答 数目 的 部 分 代码 ， 但 这 次 而 
我 们 要 计算 数据 类 型 的 数目 : 


datatypes = {} O@ 

















一 







































































start_dict = {'digit': 0, 'boolean': 0， 
'empty': 0, 'time_related': 0， 
'text': 0, 'unknown': 0 


1@ 


for row in zipped_data: 
for resp tin row: 
question = resp[0][1] 
answer = resp[1] 
key = 'unknown' © 
if answer.isdigit(): @ 


key = 'digit’ 
elif answer in ['Yes', 'No', 'True', 'False']: © 
key = 'boolean’' 





elif answer.isspace(): @ 
key = 'empty' 

elif answer.find('/') > 0 or answer.find(':') > 0: @ 
key = 'time_related' 

elif answer.isalpha(): @ 
key = 'text' 

if question not in datatypes.keys(): © 
datatypes[question] = start_dict.copy() 四 


datatypes[question][key] += 1 @ 
print datatypes 


@ 第 一 行 代码 初始 化 一 个 字典 ， 因 为 用 字典 保存 问题 数据 是 一 种 快速 、 可 靠 的 方法 。 

@ 本 行 代 码 创建 一 个 start_dict 字典 ， 用 于 检查 数据 集中 每 一 个 问题 的 数据 类 型 是 否 相 
同 。 字 上 典 中 包含 所 有 可 能 的 数据 类 型 ， 方便 我 们 对 比 。 

@ 这 里 我 们 将 变量 key 设置 为 默认 值 unknown。 如 果 变 量 key 在 下 面 的 if 或 elif 语句 中 
没有 被 修改 的 话 ， 它 的 值 还 是 unknown。 

@ Python 字符 串 类 有 许多 判断 数据 类 型 的 方法 。 这 里 我 们 用 的 是 isdigit 方法 : 如 果 字 符 
串 中 只 包含 数字 ， 本 行 代码 返回 True。 

@ 要 判断 数据 是 否 与 布尔 逻辑 相关 ， 我 们 这 里 测试 回答 是 否 包 含 在 一 个 由 布尔 回答 组 成 
的 列表 中 ， 列 表 中 包括 Yes/No 和 True/False。 虽 然 我 们 可 以 创建 一 个 更 加 全 面 的 列表 ， 
但 现在 用 这 个 列表 就 足够 了 。 

@ 如 果 字 符 串 中 只 包含 空格 ，Python 字符 串 类 的 isspace 方法 将 返回 True。 

@ 字符 串 的 find 方法 返回 第 一 个 匹配 结果 的 索引 编号 。 如 果 在 字符 串 中 没有 找到 匹配 ， 
则 返回 -1。 本 行 代码 同时 测试 / 和 :， 这 是 时 间 字 符 串 中 的 两 个 常用 符号 。 这 个 检查 并 
不 全 面 ， 但 可 以 作为 初步 检查 。 

@ 如 果 字 符 串 中 只 包含 字母 ， 字 符 串 的 isalpha 方法 将 返回 True。 

@ 与 计算 NA 回答 数目 的 代码 类 似 ， 我 们 这 里 判断 问题 是 否 包 含 在 datatypes 字典 的 键 中 。 

图 如 果 问 题 没 有 包含 在 datatypes 字典 中 ， 本 行 代码 将 问题 添加 到 字典 中 ， 并 将 start_ 
dict 的 副本 作为 对 应 的 值 。 字 典 的 copy 方法 为 每 一 条 数据 创建 一 个 独立 的 字典 对 象 。 
如 果 将 start_dict 作为 每 一 个 问题 对 应 的 值 ， 我 们 将 会 得 到 包含 所 有 总 数 的 一 个 字典 ， 
而 不 是 每 一 个 问题 都 对 应 一 个 新 字典 。 

@ 将 我 们 找到 的 键 对 应 的 值 加 1。 这 样 对 于 每 一 个 问题 和 回答 ， 我 们 对 数据 类 型 有 了 一 个 
“猜测 ”。 

从 代码 运行 结果 中 已 经 可 以 发 现 不 一 致 之 处 ! 有 些 问 题 以 一 种 “类 型 ”的 回答 为 主 ， 而 其 

他 问题 则 有 许多 种 回答 类 型 的 猜测 。 我 们 可 以 从 这 里 继续 ， 因 为 它们 只 是 粗略 的 猜测 。 


利用 这 一 新 信息 的 一 种 方法 是 ， 找 到 回答 中 大 部 分 都 是 数字 类 型 的 问题 ， 观 察 那些 非 数字 
的 回答 ， 看 它们 的 值 都 是 什么 。 我 们 认为 可 能 会 是 NA 或 错误 插入 的 值 。 如 果 这 些 值 与 我 
们 关心 的 问题 有 关 ， 我 们 可 以 将 其 归 一 化 。 一 种 做 法 是 将 NA 或 错误 值 奉 换 为 None 或 空 
值 。 如 果 你 需要 对 列 数据 做 统计 分 析 的 话 ， 这 一 方法 是 很 有 用 的 。 
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在 对 数据 集 的 后 续 处 理 过 程 中 ， 你 还 会 发 现 数据 类 型 的 离 群 值 或 NA 回答 。 
处 理 这 些 不 一 臻 数据 的 最 佳 做 法 取决 于 你 对 该 话题 和 数据 集 的 熟悉 程度 ， 也 
取决 于 你 想 要 回答 的 问题 。 如 果 你 要 合并 数据 集 ， 有 了 时 你 可 以 舍弃 那些 离 群 
值 和 不 良 数据 ， 但 注意 不 要 忽视 微小 的 趋势 。 


现在 我 们 已 经 初步 找 出 了 数据 集中 的 离 群 值 及 其 规律 ， 下 面 我 们 继续 清除 另 一 种 不 良 数 
据 一 一 重复 值 ， 即 使 是 我 们 自己 也 可 能 会 创建 重复 值 。 


7.2.4 找 出 重复 值 

如 果 你 要 处 理 的 是 同一 调查 数据 的 多 个 数据 集 ， 或 者 是 可 能 包含 重复 值 的 原始 数据 ， 删 除 
重复 数据 是 确保 数据 准确 可 用 的 重要 步骤 。 如 果 你 的 数据 集 有 唯一 标识 符 ， 你 可 以 利用 这 
些 ID， 确 保 没 有 误 插 入 重复 数据 或 获取 重复 数据 。 如 果 你 的 数据 集 没 有 索引 ， 你 可 能 需要 
找到 判断 数据 唯一 性 的 好 方法 (例如 创建 一 个 可 索引 的 键 )。 

Python 内 置 库 中 有 几 个 判断 数据 唯一 性 的 好 方法 。 我 们 首先 介绍 一 些 概念 : 


list with dupes = [1, 5, 6, 2, 5, 6, 8, 3, 8, 3, 3, 7, 9] 


互 


















































set_ without dupes = set(list with dupes) 

print set without dupes 
输出 应 该 是 这 样 的 : 

{1; 5 6 Zs 6 37 67 7 3 15. 95} 
这 里 发 生 了 什么 ? 集合 (set) 和 frozenset 都 是 Python 的 内 置 类 型 ， 输 入 一 个 可 过 代 对 象 
(比如 列表 、 字 符 串 或 元 组 )， 返 回 一 个 包含 唯一 值 的 集合 。 


要 使 用 集合 和 frozenset， 输 入 的 值 需要 是 可 哈 希 的 (hashable)。 对 于 可 哈 希 
的 数据 类 型 ， 我 们 可 以 使 用 哈 希 方法 ， 得 到 的 结果 总 是 相同 的 。 例 如 ， 我 们 
可 以 认为 代码 中 的 每 一 个 3 都 是 完全 相同 的 。 








大 部 分 Python 对 象 都 是 可 哈 希 的 一 一 只 有 列表 和 字典 不 是 。 对 于 任意 可 哈 希 类 型 (整数 、 
浮 点 数 、 小 数 、 字 符 串 、 元 组 等 )， 我 们 可 以 用 set 创建 集合 。 人 集合 和 frozenset 的 另 一 个 
巧妙 之 处 在 于 ， 它 们 有 一 些 可 以 快速 比较 的 属性 。 我 们 来 看 儿 个 例子 : 


first set = set([1, 5, 6, 2, 6, 3, 6, 7, 3, 7, 9, 10, 321, 54, 654, 432]1) 





second_set = set([4, 6, 7, 432, 6, 7, 4, 9, 0]) 
print first set.intersection(second set) @ 
print first_set.union(second_set) @ 


print first_set.difference(second_set) © 





print second_set - first_set @ 
print 6 in second_set © 
print 0 in first_set 


@ 集合 的 intersection 方法 返回 两 个 集合 的 交集 〈 即 两 个 集合 共有 的 元 素 ) 。 内 置 的 维 恩 
到 哦 ! 
如 集合 的 union 方法 将 第 一 个 集合 的 值 与 第 二 个 集合 的 值 合并 在 一 起 。 
四 difference 方法 给 出 的 是 第 一 个 集合 和 第 二 个 集合 的 差 集 。 从 下 一 行 代码 可 以 看 出 ， 运 
算 顺 序 很 重要 。 
@ 用 一 个 集合 去 减 另 一 个 集合 ， 得 出 二 者 的 差 集 。 改 变 集 合 的 顺序 会 改变 结果 (与 数学 中 
的 减法 类 似 ) 。 
@ in 判断 元 素 是 否 包 含 在 集合 中 (速度 很 快 )。 
你 的 输出 应 该 是 像 这 样 的 : 
set([432, 9, 6, 7]) 
set([0, 1, 2, 3, 4, 5, 6, 7, 9, 10, 321, 432, 654, 54]) 
set([1, 2, 3, 5, 321, 10, 654, 54]) 
set([0, 4]) 


True 
False 


在 定义 唯一 数据 集 和 集合 对 比方 面 ， 集 合 有 许多 实用 的 特性 。 在 数据 处 理 过 程 中 ， 我 们 经 
常 需要 计算 一 系列 值 的 最 大 值 和 最 小 值 ， 或 者 需要 唯一 键 的 合并 。 集 合 可 以 帮 有 我 们 完成 这 
些 任务 。 

除了 集合 ，Python 还 有 一 些 库 可 以 轻松 测试 唯一 性 。 你 可 以 用 numpy 库 来 测试 唯一 性 ， 这 
是 Python 中 一 个 强大 的 数学 库 ， 包 含 很 多 科学 和 统计 的 方法 和 类 。 与 Python 核心 库 相 比 ， 
numpy 拥有 出 色 的 数组 功能 、 数 值 计算 功能 和 数学 功能 。numpy 数组 还 有 一 个 好 用 的 方法 ， 
叫 作 unique。 你 可 以 这 样 安装 numpy: 


pip install numpy 


我 们 来 看 一 下 numpy 库 的 unique 的 工作 原理 : 


import numpy as Np 








































































































list with dupes = [1, 5, 6, 2, 5, 6, 8, 3, 8, 3, 3, 7, 9] 

print np.unique(list with dupes, return_index=True) © 

array_with dupes = np.array([[1, 5, 7, 3, 9, 11, 23], [2, 4, 6, 8, 2, 8, 4]]) 所 
print np.unique(array_with dupes) © 


@ numpy 库 的 unique 方法 会 保存 索引 编号 。 设 置 return_index=True， 返 回 的 是 由 数组 组 
成 的 元 组 : 第 一 个 是 唯一 值 组 成 的 数组 ， 第 二 个 是 由 索引 编号 组 成 的 扁平 化 数组 一 一 只 
包含 每 一 个 数字 第 一 次 出 现时 的 索引 编号 。 
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四 为 了 展示 numpy 的 更 多 功能 ， 本 行 代码 创建 了 一 个 numpy 矩阵 。 和 矩阵 是 由 (长度 相同 的 ) 
数组 组 成 的 数组 。 
@ unique 将 矩阵 转换 成 由 唯一 值 组 成 的 集合 。 


你 的 输出 是 这 样 的 : 
(array([1; 25 3，5，65 7, 8, 9]); array([ 0, 3， 7» 全 25 11; 6; 12])) 
[1 23 4 56 7 8 911 23] 




















如 果 没 有 唯一 键 ， 你 可 以 编写 函数 来 创建 唯一 集合 。 写 法 和 列表 生成 式 一 样 简单 。 用 
Python 集合 在 我 们 的 数据 集 上 试验 一 下 。 首 先 ， 我 们 观察 数据 集中 哪些 数据 是 唯 的 ， 然 
后 找 出 唯一 数 : 


for x in enumerate(zipped_data[0]): 
print x 












































(0, (['HH1', 'Cluster number', ''], '1')) 

(1, (['HH2', 'Household number', ''], '17')) 
(2, (['LN', 'Line number', ''], '1')) 

(3, (['MWM1', 'Cluster number', ''], '1')) 
(4, (['MWM2', 'Household number', ''], '17')) 
(5, (['MWM4', "Man's Line number", ''], '1')) 


可 以 看 出 ， 每 一 行 前 五 个 元 素 可 能 包含 了 唯一 标识 符 。 假 设 我 们 对 数据 的 理解 是 正确 的 ， 
那么 类 和 群 编号 (Cluster number)、 家 庭 编 号 (Household number) 和 男性 家 庭 成 员 编号 
(Man's line number) 三 者 应 该 是 一 个 唯一 组 合 。 家 庭 成 员 编号 (Line number) 可 能 也 是 唯 
一 编号 。 我 们 来 看 一 下 这 是 否 正确 : 


set_of_Lines = set([x[2][1] for x ;in zipped_data]) © 





























uniques = [x for x in zipped data if not set_of_Lines.remove(x[2][1])] @ 
print set_of_Lines 


@ 首先 ， 我 们 创建 一 个 集合 ， 里 面包 含 调查 中 的 所 有 家 庭 成 员 编 号 。 家 庭 成 员 编 号 是 每 一 
个 回答 中 的 第 三 个 元 素 ， 而 编号 值 是 里 面 第 二 个 元 素 (x[2][1])。 我 们 使 用 列表 生成 式 
来 提高 代码 的 运行 速度 。 

@@ set_of_lines 现在 保存 的 是 唯一 键 。 我 们 可 以 利 0 i 
集中 每 个 键 出 现 的 次 数 是 否 多 于 一 次 。 如 果 家 庭 成 员 编号 是 唯一 的 ， 那 么 每 一 个 键 只 会 
删除 一 次 。 如 果 有 重复 值 ，remove 将 会 引发 KeyError， eR 


咽 。 运 行 代码 时 的 确 出 现 了 错误 ， 所 以 我 们 关于 家 庭 成 员 编 号 是 唯一 的 假设 是 错误 的 。 如 
果 仔 细 观 察 我 们 创建 的 集合 ， 家 庭 成 员 编 号 似乎 是 从 1 到 16， 然 后 依次 重复 。 






































你 经 常 需要 处 理 混乱 的 数据 集 ， 或 者 类 似 上 面 的 数据 集 ， 没 有 明确 的 唯一 键 。 
遇 到 这 种 情况 我 们 的 建议 是 ， 找 到 唯一 键 ， 然 后 用 这 个 唯一 键 来 做 对 比 。 














创建 唯一 键 的 方法 有 很 多 。 我 们 可 以 用 采访 的 开始 时 间作 为 唯一 键 。 但 我 们 不 确定 
UNICEF 是 否 同时 安排 了 多 个 调查 组 。 如 果 是 的 话 ， 我 们 可 能 会 将 事实 上 不 是 重复 值 的 元 
素 当 作 重 复 值 删 掉 。 我 们 可 以 用 被 采访 人 的 出 生日 期 和 采访 时 间 一 起 做 唯一 键 ， 这 样 不 大 
可 能 有 重复 值 ， 但 如 果 有 字段 缺失 的 话 就 麻烦 了 。 

一 种 优雅 的 解决 方法 是 ， 检 查 类 群 编号 、 家 庭 编 号 和 家 庭 成 员 编 号 三 者 是 否 构 成 唯一 键 。 
如 果 是 的 话 ， 我 们 可 以 将 这 个 方法 应 用 到 整个 数据 集 上 一 一 即使 没有 采访 起 止 时 间 也 可 
以 。 我 们 来 试 一 下 ! 

set_of_keys = set([ 
'%s-%s-%s' % (x[9][1]，x[1][1]，x[2][1]) for x in ztpped_data]) © 

































































uniques = [x for x in zipped_data if not set_of_keys.remove( 


'%s-%s-%s' % (x[OJ[1], x[1][1], x[2][1]))] @ 
print len(set_of keys) © 


@ 利用 类 群 编号 、 家 庭 编 号 和 家 庭 成 员 编号 创建 一 个 字符 串 ， 我 们 认为 这 三 个 编号 的 组 合 
是 唯一 的 。 我 们 将 三 个 编号 用 - 隔 开 ， 这 样 方便 区 分 。 

名 利用 remove 方法 重新 创建 我 们 用 到 的 唯一 键 。 这 样 会 一 个 个 删除 所 有 数据 ，uniques 列 
表 包 含 每 一 个 唯一 数据 。 如 果 有 重复 数据 的 话 ， 代 码 还 会 抛 出 错误 。 

四 计算 唯一 键 列表 的 长 度 。 我 们 可 以 知道 数据 集中 有 多 少 个 唯一 值 。 

太 好 了 ! 这 一 次 没有 报错 。 从 列表 的 长 度 中 可 以 看 出 ， 每 一 行 都 是 唯一 的 。 这 也 符合 我 们 

对 这 个 数据 集 的 预期 ， 因 为 UNICEF 在 发 布 数据 之 前 会 做 一 些 数据 清洗 工作 ， 确 保 设 有 重 

复 值 。 如 果 我 们 要 将 这 些 数 据 与 其 他 UNICEF 数据 合并 的 话 ， 我 们 可 能 需要 将 M 添加 到 

唯一 键 中 ， 因 为 这 是 男性 组 的 调查 。 然 后 我 们 可 以 对 相同 编号 的 家 庭 做 交叉 对 照 。 

唯一 键 可 能 并 不 容易 发 现 ， 这 取决 于 你 所 用 的 数据 。 出 生日 期 和 地 址 可 能 是 一 个 好 的 唯一 

键 组 合 。 两 个 24 岁 女 性 住 在 同一 地 方 ， 出 生日 期 又 恰好 相同 的 可 能 性 是 很 小 的 ， 虽 然 也 

不 是 完全 不 可 能 ， 比 如 她 们 是 住 在 一 起 的 双胞胎 ! 


讲 完 重复 值 ， 下 面 我 们 来 讲 模糊 匹配 ， 这 是 寻找 重复 值 的 好 方法 ， 尤 其 是 杂乱 的 数据 集 。 


7.2.5 ”模糊 匹配 

如 果 你 要 处 理 不 止 一 个 数据 集 ， 或 者 是 未 标准 化 的 脏 数 据 ， 可 以 用 模糊 匹配 来 寻找 和 合并 
重复 值 。 模 糊 匹配 可 以 判断 两 个 元 素 (通常 是 字符 串 ) 是 否 “相同 ”。 模 糊 匹 配 并 不 像 自 
然 语言 处 理 或 机 器 学 习 在 处 理 大 型 语言 数据 集 时 那么 深入 ， 它 可 以 帮 有 我 们 判断 “My dog & 
I” 和 “me and my dog” 的 意思 相近 。 

模糊 匹配 有 很 多 种 做 法 。 一 个 由 SeatGeek (http://chairnerd.seatgeek.com/fuzzywuzzy-fuzzy- 
string-matching-in-python/) 开发 的 Python 库 ， 使 用 很 酷 的 内 置 方法 来 匹配 多 种 场景 的 线 上 
售票 。 安 装 方法 如 下 : 


pip install fuzzywuzzy 


比如 说 你 要 处 理 一 些 脏 数 据 。 可 能 是 输入 时 粗心 ， 也 可 能 是 用 户 输入 的 ， 导 致 数据 中 包含 














































































































数据 清洗 研究、 匹配 与 格式 化 | 143 











拼写 错误 和 较 小 的 语法 错误 或 句法 偏 移 。 你 要 怎么 处 理 这 种 情况 呢 ? 


from fuzzywuzzy import fuzz 


my_records = [{'favorite book': 'Grapes of Wrath', 

'favorite movie': 'Free Willie', 
'favorite_show': 'Two Broke Girls', 

]， 

{'favorite_ book': 'The Grapes of Wrath ' ， 
'favorite movie': 'Free Willy', 
'favorite_show': '2 Broke Girls', 

3 


print fuzz.ratio(my_records[0].get('favorite_book'), 
my_records[1].get('favorite book')) © 


print fuzz.ratio(my_records[0].get('favorite_movie'), 
my_records[1].get('favorite movie')) 


print fuzz.ratio(my_records[0].get('favorite_show'), 
my_records[1].get('favorite_show')) 


@ 这 里 我 们 用 的 是 fuzz 模块 的 ratio 函数 ， 接 受 两 个 字符 串 作 比 较 。 返 回 的 是 两 个 字符 
串 序列 的 相似 程度 (一 个 介 于 1 和 100 之 间 的 值 )。 

根据 我 们 自己 对 流行 文化 和 英语 的 理解 ， 这 两 组 数据 的 爱好 是 相同 的 ， 但 是 二 者 拼写 却 不 

同 。FuzzyWuzzy 可 以 帮 有 我 们 处 理 这 些 无 心 之 错 。 可 以 看 出 ，ratio 的 匹配 得 分 相当 高 。 这 

给 了 我 们 一 些 信心 ， 相 信 这 两 个 字符 串 是 相似 的 。 

我 们 再 尝试 另 一 个 FuzzyWuzzy 方法 ， 看 结果 如 何 。 为 了 简化 问题 并 方便 对 比 ， 我 们 采用 























的 是 相同 的 数据 : 


print fuzz.partial_ratio(my_records[0] 
my_records[1] 


print fuzz.partial_ratio(my_records[0] 
my_records[1] 


print fuzz.partial_ratio(my_records[0] 
my_records[1] 








.get('favorite_book'), 
.get('favorite_ book')) © 


.get('favorite_ movie'), 
.get('favorite movie')) 


.get('favorite_show' ) ， 
.get('favorite_show' )) 


@ 这 里 我 们 调用 的 是 fuzz 模块 的 partial_ratio 函数 ， 接 受 两 个 字符 串 作 比较 。 返 回 的 是 
匹配 程度 最 高 的 子 字符 串 序 列 的 相似 程度 〈 一 个 介 于 1 和 100 之 间 的 值 )。 


一 





竺 ， 我 们 的 得 分 更 高 了 ! partial_ratio 国 数 可 以 比较 子 字符 串 ， 这 样 我 们 就 不 必 担心 某 


人 漏 掉 一 个 字母 〈 像 上 面 书 的 例子 ) 或 拼写 不 同 。 这 样 所 有 字符 串 的 匹配 度 都 会 更 高 。 























如 果 你 的 数据 有 一 些 简单 的 不 一 致 之 处 ， 这 些 国 数 都 可 以 帮 你 找到 不 匹配 的 
地 方 。 但 如 果 你 的 数据 只 有 几 个 字符 的 差别 ， 但 在 含义 上 却 有 很 大 不 同 ， 你 
可 能 想 要 同时 测试 相似 性 和 不 同 之 处 。 例 如 “does” 和 “doesn tf 的 含义 截 
然 不 同 ， 但 在 拼写 上 差别 不 大 。 在 第 一 个 ratio 例子 中 ， 这 两 个 字符 串 的 得 

















分 不 高 ， 但 子 字符 串 却 可 以 匹配 。 一 定 要 了 解 你 的 数据 及 其 内 部 的 复杂 性 ! 








A 
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FuzzyWuzzy 还 有 其 他 很 酷 的 功能 。 我 们 来 研究 其 中 几 个 ， 它 们 可 能 适用 于 你 的 数据 清 
任务 : 


洗 


下 





from fuzzywuzzy import fuzz 


my_records = [{'favorite food': 'cheeseburgers with bacon ' ， 

"favorite_drink': 'wine, beer, and tequila', 
'favorite dessert': 'cheese or cake', 

5 

{'favorite food': 'burgers with cheese and bacon ' ， 
'favorite_drink': 'beer, wine, and tequila', 
'favorite dessert': 'cheese cake', 

}] 


print fuzz.token_sort_ratio(my_records[0].get('favorite fo0d'), © 
my_records[1].get('favorite food')) 


print fuzz.token_sort_ratio(my_records[0].get('favorite_drink'), 
my_records[1].get('favorite drink')) 


print fuzz.token_sort_ratio(my_records[0].get('favorite_dessert'), 
my_records[1].get('favorite dessert')) 


@ 这 里 我 们 调用 的 是 fuzz 模块 的 token_sort_ratio 函数 ， 在 匹配 字符 串 时 不 考虑 单词 顺 
序 。 对 于 格式 不 限 的 调查 数据 来 说 ， 这 个 方法 是 很 好 用 的 ， 比 如 “I like dogs and cats” 
和 “I like cats and dogs” 的 含义 相同 。 每 个 字符 串 都 是 先 排 序 然后 再 比较 ， 所 以 如 果 包 
含 相同 的 单词 但 顺序 不 同 ， 也 是 可 以 匹配 的 。 

从 输出 中 可 以 看 出 ， 使 用 标记 (这 里 是 单词 ) 有 相当 大 的 可 能 匹配 顺序 不 同 的 单词 。 我 们 

发 现 二 者 最 爱 的 饮料 相同 ， 只 是 顺序 不 同 。 如 果 标 记 的 顺序 不 会 改变 含义 ， 我 们 就 可 以 

用 这 个 方法 。 对 于 SeatGeek 来 说 ,“Pittsburgh Steelers vs. New England Patriots” 与 “New 

England Patriots vs. Pittsburgh Steelers” 是 完全 相同 的 (只 是 主场 优势 不 同 )。 


利用 相同 的 数据 ， 我 们 来 看 FuzzyWuzzy 中 另 一 个 与 标记 有 关 的 函数 ， 


print fuzz.token_set_ratio(my_records[0].get('favorite foo0d'), @ 
my_records[1].get('favorite food')) 














print fuzz.token_set_ratio(my_records[0].get('favorite_drink ' ) ， 
my_records[1].get('favorite_drink')) 


print fuzz.token_set_ratio(my_records[0].get('favorite_dessert ' ) ， 
my_records[1].get('favorite dessert')) 


@ 这 里 我 们 调用 的 是 fuzz 模块 的 token_set_ratio 函数 ， 同 样 用 的 是 标记 方法 ， 但 比较 的 
是 标记 组 成 的 集合 ， 得 出 两 个 集合 的 交集 和 差 集 。 这 个 函数 对 排序 后 的 标记 尝试 寻找 最 
佳 匹配 ， 返 回 这 些 标记 相似 的 比例 。 

这 里 可 以 看 出 ， 如 果 我 们 不 知道 数据 集中 的 相似 和 不 同 之 处 ， 可 能 会 有 意 想 不 到 的 副 作 

用 。 其 中 一 个 答案 的 拼写 是 错误 的 。 我 们 知道 芝士 蛋糕 (cheesecake) 和 奶 栈 (cheese) 是 

不 同 的 东西 ， 但 利用 标记 集合 方法 ， 这 两 者 却 错误 地 匹配 (false positive) 了 。 我 们 没 能 
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确 匹 配 包含 芝士 汉堡 (cheeseburger) 的 回答 ， 即 使 二 者 是 完全 相同 的 。 你 能 用 我 们 已 经 学 
过 的 另 一 个 方法 来 做 到 这 一 点 么 ? 

FuzzyWuzzy 提供 的 最 后 一 个 匹配 方法 是 process 模块 。 如 果 你 只 有 有 限 的 几 个 选项 和 杂乱 
的 数据 ， 这 个 模块 是 很 有 用 的 。 比 如 说 回答 只 有 yes、no、maybe 和 decline to comment 四 
种 。 我 们 看 一 下 如 何 对 甚 匹配 : 


from fuzzywuzzy import process 


























choices = ['Yes'，'No'，'Maybe'，'N/A'] 
process.extract('ya', choices, limit=2) O@ 
process.extractOne('ya', choices) @ 
process.extract('nope', choices, limit=2) 
process.extractOne( 'nope', choices) 


@ 利用 FuzzyWuzzy 的 extract 方法 ， 将 字符 串 与 可 能 匹配 的 列表 依次 比较 。 函 数 返 回 的 
是 choices 列表 中 两 个 可 能 的 匹配 。 

@ 利用 FuzzyWuzzy 的 extractone 方法 ， 返 回 choices 列表 中 与 我 们 的 字符 串 对 应 的 最 佳 
匹配 。 


啊 哈 ! 给 定 几 个 单词 ， 我 们 事先 知道 其 “含义 ”相同 ，process 可 以 找 出 最 佳 猜测 一 一 在 
上 面 的 例子 中 也 是 正确 的 猜测 。extract 返回 的 是 带 有 比例 的 元 组 ， 代 码 对 回答 字符 串 进 
行 解析 ， 并 对 其 相似 之 处 和 不 同 之 处 作 比较 。extractone 国 数 仅 返 回 最 佳 匹配 及 其 比例 组 
成 的 元 组 。 根 据 需求 的 不 同 ， 你 可 以 选择 extractone 仅 找 出 最 佳 匹配 ， 然 后 继续 下 一 步 。 


现在 你 已 经 学 过 所 有 字符 串 匹 配 的 内 容 了 ， 下 面 我 们 来 学 习 如 何 自己 编写 类 似 的 字符 串 匹 
配 函 数 。 


7.2.6 ”正则 表达 式 匹 配 


模糊 匹配 不 一 定 总 能 满足 你 的 需求 。 如 果 你 只 需要 匹配 字符 串 的 一 部 分 ， 应 该 怎么 办 ?如 
果 你 只 想 匹配 电话 号 码 或 电子 邮件 地 址 呢 ? 在 抓 取 数据 时 (我 们 将 在 第 11 章 中 学 习 )， 或 
编译 多 个 来 源 的 原始 数据 时 ， 这 些 都 是 你 会 遇 到 的 问题 。 正 则 表达 式 可 以 帮 你 解决 上 述 大 
部 分 问题 。 

利用 正则 表达 式 ， 计 算 机 可 以 对 代码 中 的 字符 串 或 数据 的 模式 进行 匹配 、 查 找 或 删除 。 开 
发 人 员 往 往 对 正则 表达 式 怀 有 丐 惧 之 心 ， 因 为 它们 可 能 会 变 得 异常 复杂 、 难 以 理解 。 但 它 
们 是 很 有 用 的 ， 当 你 需要 正则 表达 式 来 帮 你 解决 问题 时 ， 一 些 简 单 的 基础 知识 就 可 以 帮 你 
阅读 、 编 写 和 理解 它们 。 

虽然 正则 表达 式 的 名 声 不 太 好 ， 但 其 基本 语法 是 相当 简单 易学 的 。 表 7-1 给 出 了 正则 表达 
式 的 基础 知识 。 


















































表 7-1: 正则 表达 式 基 础 知识 










































































字符 /模式 文字 说 明 匹配 实例 
\Ww 匹配 任意 一 个 字母 字符 或 数字 字符 ， 包 括 下 划 线 a、0 或 _ 
\d 匹配 任意 一 个 数字 1、2 或 4 
侨 匹配 任意 一 个 空格 字符 
+ 匹配 一 个 或 多 个 〈 贪 桂 ) 模式 或 字符 \d+ 可 以 匹配 476373 
\. 匹配 . 字符 - 
* 匹配 零 个 或 多 个 〈 贪 禁 ) 字符 或 模式 (与 if 的 作用 几乎 相同 ) ”\d* 可 以 匹配 63289 和 
| 匹配 多 个 模式 中 的 一 个 (类似 OR) \dl\w 可 以 匹配 6 或 a 
中 或 0 字符 类 (将 你 希望 匹配 的 字符 帮 在 一 个 字符 空间 里 ) 和 字符 组 [A-C] 或 (ALBTC) 都 可 以 
将 你 希望 匹配 的 字符 放 在 一 个 组 里 ) 匹配 A 
合并 字符 组 [9-9]+ 匹配 \d+ 











想 查 看 更 多 实例 ,我 们 推荐 将 这 个 优秀 的 正则 表达 式 备 忘 单 (http://www.virtu-al.net/2009/04/ 
30/powershell-regex-cheat-sheet/) 添加 到 书签 里 。 


作为 一 名 Python 开发 人 员 ， 没 有 必要 记 住 正则 表达 式 的 语法 ， 但 语法 规范 的 
正则 表达 式 可 以 在 很 多 方面 帮 到 你 。 利 用 Python 内 置 的 正则 表达 式 模块 re， 
你 可 以 轻松 查找 基本 的 匹配 和 分 组 方法 。 

















我 们 来 看 一 下 正则 表达 式 的 几 个 用 法 : 
import re 


word = '\w+' @ 
sentence = 'Here is my sentence.’ 


re.findall(word, sentence) @ 

search_result = re.search(word, sentence) © 
search_result.group() @ 

match_result = re.match(word, sentence) © 


match_result.group() 


@ 定义 一 个 普通 字符 串 的 基本 模式 。 这 个 模式 可 以 匹配 包含 字母 和 数字 、 但 不 包含 空格 和 
标点 的 字符 串 。 这 个 模式 会 一 直 匹 配 ， 直 到 无 法 匹配 为 止 (+ 表示 贪 禁 匹 配 ! )。 

@ re 模块 的 findall 方法 可 以 找 出 这 个 模式 在 字符 串 中 的 所 有 匹配 。 成 功 匹 配 了 句子 中 的 
每 一 个 单词 ， 但 没有 匹配 名 号。 在 这 个 例子 中 我 们 用 的 模式 是 \w， 所 以 不 会 匹配 标点 
和 空格 。 

@ search 方法 可 以 在 整个 字符 串 中 搜索 匹配 。 发 现 匹 配 后 ， 则 返回 匹配 对 象 。 

@ 匹配 对 象 的 group 方法 会 返回 匹配 的 字符 串 。 

日 match 方法 只 从 字符 串 开 头 开 始 搜索 。 它 的 工作 原理 与 search 不 同 。 
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我 们 可 以 轻松 匹配 句子 中 的 单词 ， 根 据 我 们 的 需要 ， 我 们 还 可 以 改变 寻找 匹配 的 方式 。 在 
上 面 的 例子 中 我 们 看 到 ，findall 返回 的 是 所 有 匹配 组 成 的 列表 。 比 如 说 你 只 想 提 取 长 文 
本 中 的 网 站 。 你 可 以 利用 正则 表达 式 模式 找到 链接 ， 然 后 利用 findall 从 文本 中 提取 出 所 
有 链接 。 或 者 你 可 以 查找 电话 号 码 或 日 期 。 如 果 你 能 够 将 想 要 寻找 的 内 容 转换 成 简单 的 模 
式 ， 并 将 其 应 用 到 字符 串 数 据 上 ， 你 就 可 以 使 用 findall 方法 。 


我 们 还 用 到 了 search 和 match 方法 ， 在 上 面 的 例子 中 二 者 返回 的 结果 相同 一 它们 匹配 的 
都 是 句子 中 的 第 一 个 单词 。 我 们 返回 的 是 一 个 匹配 对 象 ， 然 后 可 以 利用 group 方法 获取 数 
据 。group 方法 还 可 以 接受 参数 。 用 .group(9) 试 一 下 。 发 生 了 什么 ? 你 觉得 9 是 什么 意 
思 ? (提示 : 想 想 列表 ! ) 

search 和 match 实际 上 大 不 相同 。 我 们 再 多 看 几 个 例子 ， 才 能 发 现 二 者 的 不 同 之 处 ; 


import re 
























































number = '\d+' ©O 
capitalized word = '[A-Z]\w+' © 


sentence = 'I have 2 pets: Bear and Bunny.' 
search_number = re.search(number, sentence) 
search_number .group() © 

match_number = re.match(number, sentence) 

match_number .group() @ 

search_capital = re.search(capitalized word, sentence) 
search_capital.group() 

match_capital = re.match(capitalized word, sentence) 


match_capital .group() 


@ 定义 一 个 数字 模式 。 加 号 表示 贪 禁 匹配 ， 所 以 它 会 尽 可 能 匹配 所 有 数字 ， 直 到 遇 到 一 个 
非 数 字 字 符 为 止 。 

@ 定义 一 个 大 写 单词 的 匹配 。 这 个 模式 使 用 方 括号 来 定义 更 长 模式 的 一 部 分 。 方 括号 的 意 
思 是 ， 我 们 希望 第 一 个 字母 是 大 写字 母 。 后 面 紧 跟 着 的 是 一 个 连续 的 单词 。 

四 我 们 这 里 调用 group 时 发 生 了 什么 ”可 以 看 到 ，search 方法 返回 的 是 匹配 对 象 。 

@ 你 认为 这 里 的 结果 会 是 什么 ”可 能 是 数字 ， 但 实际 上 出 现 了 错误 。match 返回 的 是 
None， 而 不 是 匹配 对 象 。 


现在 我 们 可 以 更 清楚 地 看 到 search 和 match 的 区 别 。 利 用 match 我 们 无 法 找到 一 个 好 的 匹 
配 ， 尽 管事 实 上 我 们 尝试 的 每 一 次 搜索 都 有 许多 匹配 。 为 什么 会 这 样 ” 前 面 说 过 ，match 
从 字符 串 的 开头 开始 搜索 ， 如 果 没 有 找到 匹配 ， 它 会 返回 None。 与 此 相反 ，search 会 继续 
向 后 搜索 ， 直 到 找到 匹配 为 止 。 只 有 到 达 字 符 串 末尾 还 设 有 找到 匹配 时 ，search 才 会 返回 
None。 如 果 你 需要 匹配 以 特定 模式 开头 的 字符 串 ， 用 match 比较 好 。 如 果 你 只 想 在 字符 串 
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中 找到 第 一 个 匹配 或 任意 匹配 ， 最 好 选择 search。 

关于 正则 表达 式 ， 这 里 还 有 一 点 需要 注意 : 你 注意 到 了 吗 ? 你 预期 找到 的 第 一 个 大 写 单 
词 是 什么 ?是 “I” 还 是 “Bear”? 为 什么 我 们 没有 找到 “I”? 什么 模式 能 够 同时 匹配 二 
者 ? (提示 : 参考 上 面 的 表格 ， 看 看 你 都 能 使 用 哪些 通配符 变量 ! ) 

现在 我 们 更 多 地 了 解 了 正则 表达 式 的 语法 ， 以 及 match、search 和 findall 的 用 法 。 下 玫 
我 们 看 一 下 能 否 创 建 可 以 匹配 多 组 的 模式 。 在 上 面 的 例子 中 ， 我 们 只 有 一 个 模式 组 ， 所 以 
我 们 对 匹配 结果 调用 group 方法 ， 只 得 到 一 个 结果 。 但 利用 正则 表达 式 你 可 以 找到 不 止 一 
个 模式 ， 你 还 可 以 给 找到 的 匹配 组 起 一 个 变量 名 ， 这 样 可 以 提高 代码 的 可 读 性 ， 还 可 以 确 
保 每 组 匹配 正确 。 

让 我 们 来 试 一 下 ! 


import re 





























name_regex = '([A-Z]\Ww+) ([A-Z]\w+)' © 

names = "Barack Obama, Ronald Reagan, Nancy Drew" 

name_match = re.match(name_regex, names) @ 

name_match .group() 

name_match.groups() © 

name_regex = '(?P<first name>[A-Z]\w+) (?P<Last_name>[A-Z]\w+)' @ 


for name ;in re.finditer(name_regex, names): © 
print 'Meet {}!'.format(name.group('first_name')) @ 


@ 这 里 我 们 用 的 是 相同 的 大 写 单词 语法 ， 用 了 两 次 ， 分 别 放 在 括号 里 。 括 号 的 作用 是 分 组 。 

@ 这 里 我 们 在 match 方法 里 用 的 模式 包含 多 个 正则 表达 式 组 。 如 果 找 到 匹配 的 话 ， 将 返回 
多 个 匹配 组 。 

@ 对 匹配 结果 调用 groups 方法 ， 返 回 找到 的 所 有 匹配 组 构成 的 列表 。 

@ 为 各 组 命名 可 以 让 代码 清晰 明确 。 在 这 个 模式 中 ， 第 一 组 叫 first_name， 第 二 组 叫 
Last_name。 

@ finditer 的 作用 与 findall 类 似 ,但 返回 的 是 一 个 迭代 器 (iterator) 。 利 用 这 个 迭代 器 ， 
我 们 可 以 逐个 查看 字符 串 中 的 匹配 。 

@ 利用 我 们 学 过 的 字符 串 格式 化 的 知识 ， 打 印 出 我 们 的 数据 。 这 里 我 们 从 每 个 匹配 中 仅 提 
取 名 字 (firstname ) 。 

利用 ?P<variable_name> 为 模式 组 命名 ， 这 样 写 出 的 代码 更 容易 理解 。 从 上 面 的 例子 中 可 

以 看 出 ， 创 建 两 个 〈 或 多 个 ) 特定 模式 构成 的 组 并 找到 匹配 数据 也 是 相当 容易 的 。 有 了 这 

些 方法 ， 在 阅读 别人 写 的 (或 者 你 六 个 月 前 写 的 ) 正则 表达 式 时 就 不 用 费力 猜测 了 。 你 能 

自己 写 一 个 正则 表达 式 实例 来 匹配 中 间 名 缩写 吗 (如 果 有 的 话 ) ? 


利用 强大 的 正则 表达 式 ， 你 可 以 快速 识别 字符 串 的 内 容 ， 并 轻松 解析 字符 串 中 的 数据 。 在 
解析 特别 杂乱 的 数据 集 时 ， 比 如 网 络 抓 取 的 数据 ， 正 则 表达 式 的 作用 是 无 可 替代 的 。 想 阅 
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读 更 多 正则 表达 式 的 内 容 ， 我 们 推荐 在 RegExr 网 站 (http://www.regexr.com/) 上 试用 交互 
式 正 则 表达 式 解析 器 ， 还 可 以 通读 免费 的 正则 表达 式 教 程 (http://www.regular-expressions. 


info/tutorial.htm!l ) 。 


前 面 学 过 了 这 么 多 匹配 方法 ， 现 在 你 可 以 轻松 找 出 重复 值 。 下 面 我 们 来 看 一 下 ， 在 我 们 的 
数据 集中 遇 到 重复 值 时 可 以 有 哪些 做 法 。 


7.2.7 ”如 何 处 理 重复 记录 

根据 你 的 数据 状态 ， 你 可 能 希望 合并 重复 记录 。 如 果 你 的 数据 集 只 有 重复 行 ， 那 就 无 需 担 
心 数 据 存储 的 问题 ， 这 些 数据 已 经 包含 在 最 终 数 据 集 内 ， 你 只 需 在 清洗 后 的 数据 中 删除 或 
舍弃 这 些 行 即 可 。 但 如 果 你 要 合并 不 同 的 数据 集 ， 并 希望 保存 每 一 条 重复 数据 ， 那 你 需要 
思考 用 Python 实现 的 最 佳 做 法 。 

在 第 9 章 我 们 将 会 讲 到 合并 数据 的 一 般 性 方法 ， 用 到 一 些 新 库 。 但 合并 数据 行 还 有 简单 的 
方法 ， 和 你 解析 数据 的 方法 相同 。 如 果 你 用 DictReader 提取 数据 的 话 ， 我 们 用 一 个 例子 
来 讲解 这 个 方法 。 我 们 将 合并 男性 数据 集 的 一 些 数 据 行 。 这 次 我 们 希望 基于 家 庭 来 合并 数 
据 ， 所 以 我 们 关注 的 是 每 一 家 的 调查 ， 而 不 是 每 个 人 的 调查 , 


from csv import DictReader 















































mn_data_rdr = DictReader(open('data/unicef/mn.csv', 'rb')) ©@ 
mn_data = [d for d in mn_data_rdr] 


def combine data_ dict(data_rows): @ 
data_ dict = {] 四 
for row in data_rows: 
key = '%s-%s' % (row.get('HH1'), row.get('HH2')) @ 
if key in data_dict.keys(): 
data_dict[key].append(row) © 
else: 
data_dict[key] = [row] @ 
return data_dict @ 


mn_dict = combine data dict(mn data) 四 
print Len(mn_dict) 


@ 我 们 用 到 DictReader 模块 ， 方 便 解 析 我 们 想 要 的 所 有 字段 。 

@ 我 们 定义 了 一 个 函数 ， 还 可 以 用 在 其 他 UNICEF 数据 集 上 。 我 们 之 所 以 将 函数 命名 为 
combine_data_dict， 是 因为 函数 的 作用 是 将 data_rows 合并 ， 然 后 返回 一 个 字典 。 

@ 定义 一 个 新 的 数据 字典 ， 用 于 函数 的 返回 值 。 

@ 在 前 面 的 例子 中 我 们 利用 类 群 编号 、 家 庭 编号 和 家 庭 成 员 编 号 创建 一 个 唯一 键 ， 与 之 类 
似 ， 本 行 代 码 也 创建 一 个 唯一 键 。“HH1” 代 表 类 群 编号 ,，“HH2” 代 表 家 庭 编 号 。 本 行 
代码 用 这 两 个 编号 来 表示 唯一 家 庭 。 

@ 如 果 已 经 添加 过 这 个 家 庭 ， 本 行 代码 将 当前 数据 行 添加 到 数据 列表 中 。 

@ 如 果 这 个 家 庭 尚 未 添加 ， 本 行 代码 新 建 一 个 列表 ， 列 表 元 素 为 当前 数据 行 。 
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@ 在 国 数 末 尾 ， 返 回 新 的 数据 字典 。 

@ 现在 传 入 数据 行 运行 该 函数 ， 并 将 新 生成 的 字典 赋值 给 一 个 变量 ， 以 供 后 续 使 用 。 本 行 
代码 将 新 生成 的 字典 命 ;名 为 m_dtct， 我 们 可 以 利用 这 个 字典 来 查看 有 多 少 个 唯一 家 许 ， 
以 及 每 个 家 庭 分 别 做 了 多 少 份 调查 。 











如 果 函 数 结尾 没有 return 的 话 ， 畏 数 将 会 返回 None。 在 你 开始 编写 自己 的 
国 数 时 ， 一 定 要 注意 返回 值 的 错误 。 














我 们 找到 了 约 7000 个 唯一 家 庭 ， 这 说 明 采 访 中 有 2000 多 的 男性 与 其 他 男性 属于 同一 家 
庭 。 本 次 采访 每 个 家 庭 平 均 有 1.3 个 男性 。 像 这 样 的 简单 计算 可 以 让 我 们 对 数据 有 更 深入 
的 了 解 ， 还 可 以 帮 有 我 们 思考 数据 的 含义 ， 并 发 现 基 于 现 有 数据 我 们 可 以 回答 哪些 问题 。 


7.3 小 结 


本 章 你 学 习 了 数据 清洗 的 基础 知识 ， 以 及 在 数据 处 理 过 程 中 数据 清洗 的 重要 性 。 你 用 到 了 
一 些 MICS 原始 数据 ， 并 直接 与 这 些 数据 进行 了 交互 。 现 在 你 学 会 了 观察 数据 ， 并 能 判断 
你 可 能 会 遇 到 的 数据 清洗 问题 。 现 在 你 还 可 以 找到 并 删除 错误 数据 和 重复 数据 。 


表 7-2 中 详细 描述 了 本 章 讲 到 的 新 概念 和 新 库 。 
表 7-2: Python 编程 的 新 概念 和 新 库 


































































































概念 / 库 作用 

列表 生成 式 利用 迭代 器 、 函 数 和 /或 if 语句 ， 可 以 方便 快速 地 创建 列 
表 ， 用 于 进一步 清洗 和 处 理 数据 

字典 的 values 方法 返回 由 字典 的 值 组 成 的 列表 。 在 测试 内 部 元 素 时 很 有 

in 和 not in 语句 测试 内 部 元 素 。 通 常用 于 字符 串 或 列表 。 返 回 一 个 布尔 值 

列表 的 remove 方法 传 入 一 个 元 素 ， 删 除 列表 中 第 一 个 匹配 的 元 素 。 对 于 一 个 创 
建 好 的 列表 ， 如 果 你 确切 知道 要 删除 的 元 素 是 什么 ， 这 个 方 
法 很 有 用 

enumerate 方法 传人 任意 可 和 迭代 对 象 ， 返 回 一 个 由 索引 编号 和 对 应 的 值 组 成 
的 元 组 

列表 的 index 方法 传人 一 个 元 素 ， 返 回 列表 中 第 一 个 匹配 对 象 的 索引 编号 。 如 
果 没 有 匹配 的 话 ， 返 回 None 

字符 串 的 format 方法 可 以 将 一 系列 数据 轻松 转换 成 易 读 的 字符 串 。 用 {] 作为 数 


据 占 位 符 ， 传 人 数据 的 数量 应 与 其 数量 相同 。 还 可 以 用 于 字 
典 的 键 名 。 有 许多 字符 串 格式 化 方法 可 用 















































字符 串 格 式 化 (.4f、.2%) 数学 标记 (flag)， 可 以 将 数字 转换 成 简单 易 读 的 字符 串 

datetime 库 的 strptime 和 strftime 方法 可 以 将 Python 日 期 对 象 轻松 转换 成 字符 串 ， 以 及 将 字符 串 
转换 成 日 期 对 象 

datetime 库 的 timedelta 对 象 表示 两 个 Python 日 期 对 象 之 间 的 时 间 差 ， 或 者 用 于 修改 日 
期 对 象 〔 例 如 增加 时 间或 减少 时 间 ) 

if not 语句 测试 其 后 语句 的 值 是 否 非 True， 与 if 语句 的 布尔 逻辑 相反 
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( 续 ) 










































































概念 / 库 作用 

is 语句 测试 第 一 个 对 象 和 第 二 个 对 象 是 否 相 同 。 在 类 型 测试 方面 很 
有 用 (例如: is None、is List)。 更 多 关于 is 的 内 容 可 参 
阅 附录 了 

字符 串 的 isdigit 和 isaLpha 方法 测试 字符 串 对 象 是 否 只 包含 数字 或 只 包含 字母 。 返 回 一 个 布 
尔 值 

字符 串 的 find 方法 传人 一 个 子 字 符 串 ， 返 回 它 在 字符 串 中 的 索引 位 置 。 如 果 没 
有 找到 匹配 ， 则 返回 -1 

Python 集合 对 象 (https:/docs.python.org/2/ 唯一 元 素 的 集合 类 。 与 列表 的 用 法 很 相似 ， 但 没有 重复 值 。 

library/sets.html) 有 许多 集合 对 比 的 方法 (union、intersection、difference) 

numpy 包 (http://www.numpy.org/) Python 基本 数学 库 ， 是 SciPy 栈 的 一 部 分 

FuzzyWuzzy 库 (https://github.com/seatgeek/ 用 于 字符 串 模 糊 匹配 的 库 

fuzzywuzzy ) 














正则 表达 式 (https://en.wikipedia.org/wiki/ 可 以 用 来 编写 模式 并 在 字符 串 中 寻找 匹配 
Regular_expression) 和 Python 的 re 库 (https:/ 
docs.python.org/2/library/re.html) 


在 下 一 章 里 ， 你 还 会 继续 练习 这 些 数据 清洗 和 数据 分 析 技术 ， 并 利用 这 些 技术 更 好 地 安排 
和 重复 数据 清洗 任务 。 我 们 会 讲 到 数据 归 一 化 和 标准 化 ， 以 及 如 何 将 数据 清洗 脚本 化 并 对 
脚本 进行 测试 。 
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数据 清洗 : 标准 化 和 脚本 化 





你 已 经 学 习 了 数据 的 匹配 和 解析 方法 ， 以 及 如 何 寻找 重复 值 ， 你 已 经 开始 探索 数据 请 洗 的 
奇妙 世界 。 随 着 进一步 理解 你 的 数据 集 和 你 想 要 回答 的 问题 ， 你 需要 考虑 数据 标准 化 和 请 
洗 自动 化 的 问题 。 


本 章 我 们 将 探索 数据 标准 化 的 方法 和 时 机 ， 以 及 何 时 将 数据 清洗 脚本 化 并 对 脚本 进行 测 
试 。 如 果 你 管理 的 数据 集 是 定期 更 新 或 新 增 数据 的 话 ， 你 需要 使 清洗 过 程 尽 可 能 高 效 清 
楚 ， 这样 你 就 可 以 将 更 多 时 间 花 在 数据 分 析 和 撰写 报告 上 。 我 们 首先 讲 数据 集 的 标准 化 
(standardizing) 和 归 一 化 (normalizing)， 以 及 如 果 数 据 集 没有 归 一 化 应 该 怎么 做 。 


8.1 数据 归 一 化 和 标准 化 

数据 集 的 标准 化 和 归 一 化 可 能 意味 着 利用 当前 数据 计算 新 数据 ， 也 可 能 是 对 特定 列 或 特定 
数据 进行 标准 化 或 归 一 化 ， 这 取决 于 你 的 数据 和 所 从 事 的 研究 类 型 。 

从 统计 学 的 观点 来 看 ， 归 一 化 通常 需要 对 数据 集 进 行 计算 ， 使 数据 都 位 于 一 个 特定 的 范 
围 。 比 如 说 ， 你 可 能 需要 将 测验 成 绩 归 一 化 到 一 定 范围 ， 这 样 你 就 可 以 准确 查看 成 绩 分 
布 。 你 可 能 还 需要 对 数据 做 归 一 化 ， 以 便 准 确 查 看 百 分 位 数 ， 或 不 同 群体 (或 世代 ) 之 间 
的 百 分 位 数 。 

段 设 你 想 查看 某 队 在 给 定 赛季 得 分 的 分 布 情况 。 你 可 能 首先 会 将 比赛 分 为 赢 、 输 、 平 三 种 
情况 。 然 后 再 进一步 分 为 赢 多 少 分 、 输 多 少 分 ， 等 等 。 你 还 可 以 按 比赛 时 长 和 每 分 钟 得 分 
数 来 分 类 。 你 可 以 访问 所 有 这 些 数据 集 ， 现 在 你 希望 在 球 队 之 间 进 行 对 比 。 如 果 要 对 数据 
归 一 化 ， 你 可 能 会 将 总 得 分 归 一 化 到 0-1 区 间 。 离 群 值 (最 高 得 分 ) 将 会 接近 于 1， 较 低 
得 分 将 会 接近 于 0。 然 后 你 可 以 利用 新 数据 的 分 布 情况 ， 查 看 有 多 少 支 球 队 的 得 分 位 于 中 
游 ， 在 低 分 和 高 分 区 间 是 否 有 很 多 球 队 。 你 还 可 以 找 出 离 群 值 (比方 说 ， 如 果 大 多 数 得 分 
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都 在 0.3 和 0.4 之 间 ， 那 么 你 就 知道 ， 没 在 这 个 范围 内 的 得 分 可 能 就 是 离 群 值 ) 。 

如 果 想 对 同样 的 数据 做 标准 化 ， 应 该 怎么 做 呢 ? 举 个 例子 ， 你 可 以 将 数据 标准 化 ， 计 算出 
每 分 钟 的 平均 得 分 。 然 后 你 可 以 将 平均 得 分 作 图 ， 查 看 分 布 情况 。 哪 些 球 队 每 分 钟 得 分 较 
高 ? 有 没有 离 群 值 ? 

你 还 可 以 计算 标准 差 来 查看 分 布 情况 。 在 第 9 章 中 我 们 会 更 全 面 地 介绍 标准 化 ， 但 主要 问 
题 就 是 : 数据 的 正常 范围 是 什么 ?这 个 范围 之 外 都 有 哪些 数据 ?数据 有 没有 什么 规律 ? 
可 以 看 出 ， 归 一 化 和 标准 化 是 不 同 的 。 但 二 者 通常 都 可 以 让 研究 人 员 或 调查 人 员 确 定数 据 
的 分 布 ， 并 明白 该 分 布 对 后 续 研 究 或 计算 的 含义 。 

数据 标准 化 和 归 一 化 有 时 还 需要 删除 离 群 值 ， 这 样 你 才能 更 好 地 发 现 数据 的 规律 和 分 布 。 
回头 看 前 面 的 球 队 例子 ， 如 果 你 从 整个 联赛 中 删除 顶级 得 分 球员 的 得 分 ， 球 队 的 成 绩 是 否 
发 生 了 巨大 的 变化 ? 如 果 一 名 球员 得 到 了 所 在 球 队 一 半 的 得 分 ， 那 么 回答 是 “是 的 "， 这 
会 使 球 队 成 绩 发 生 巨大 的 变化 。 

与 此 类 似 ， 如 果 某 支 球 队 总 是 大 比分 胜出 ， 从 联赛 数据 中 剔除 这 支队 伍 ， 可 能 会 大 幅 改 变 
平均 得 分 及 其 分 布 情况 。 你 可 以 使 用 归 一 化 、 标 准 化 和 剔除 离 群 值 的 方法 来 帮 你 找到 问题 
的 答案 ， 这 取决 于 你 要 解决 的 问题 。 


8.2 ”数据 存储 


我 们 已 经 讲 过 几 种 数据 存储 的 方法 ， 现 在 有 了 可 用 的 数据 ， 我 们 先 来 复习 一 下 这 些 方法 。 
如 果 你 正在 使 用 数据 库 、 知 道 预 期 的 表格 格式 ， 并 想 要 保存 已 经 清洗 过 的 数据 ， 那 么 你 应 
该 继续 使 用 第 6 章 讲 过 的 Python 库 来 连接 数据 库 并 保存 数据 。 对 于 这 些 Python 库 中 的 大 
部 分 库 ， 你 都 可 以 使 用 游标 直接 向 数据 库 提 交 。 





















































我 们 强烈 建议 在 数据 库 脚 本 中 添加 错误 信息 ， 在 遇 到 网 络 故障 或 数据 库 故 障 
时 可 以 捕获 这 些 错误 信息 。 我 们 建议 频繁 向 数据 库 提 交 ， 这 样 可 以 避免 网 络 
问题 或 延迟 问题 影响 脚本 的 运行 。 














如 果 你 用 的 是 第 6 章 中 讲 过 的 SQLite 例子 ， 你 需要 将 新 的 干净 数据 保存 到 你 的 数据 库 中 。 
我 们 来 看 一 下 如 何 做 到 这 一 点 : 


import dataset 

















db = dataset.connect('sqLite:///data_wrangLing.db' ) ©@ 
table = db['unicef_survey'] © 


for row_num, data in enumerate(zipped data): © 
for question, answer ;in data: @ 
data dict = {©@ 
'question': question[1], ©@ 
'question_code': question[0], 
'answer': answer, 
'response_number': row_nunm, @ 





'suyrvey': "mn'， 


} 


table.insert(data dict) @ 


@ 这 里 我 们 访问 本 地 数据 库 。 如 果 你 将 文件 保存 到 其 他 目录 ， 一 定 要 修改 文件 路 径 ， 将 其 
修改 为 数据 库 文件 相 对 于 当前 目录 的 位 置 ( 例 如， 如果 数据 库 文件 保存 在 上 层 目 录 中 : 
file:///../datawrangling.db ) 。 

@ 本 行 代码 创建 一 个 新 表 : unicef_data。 我 们 知道 很 多 UNICEF 调查 都 有 相同 的 规律 
所 以 我 们 这 个 数据 库 名 是 没有 歧义 、 可 复 用 的 。 

四 我 们 希望 保存 所 在 的 行 编号 ,这样 每 个 回答 都 有 一 个 编号 。 本 行 代码 用 到 了 enumerate 
函数 ， 这 样 在 数据 库 中 可 以 找到 (每 一 行 /每 一 个 回答 的 ) 每 一 条 数据 (它们 的 共用 一 
个 行 编 号 )。 

@ 我 们 知道 ， 我 们 的 数据 被 分 割 成 元 组 ， 标 题 列 表 是 元 组 的 第 一 个 元 素 ， 问 题 回答 是 元 组 
的 第 二 个 元 素 。 本 行 代码 利用 for 循环 解析 其 中 包含 的 数据 并 进行 存储 。 

@ 每 一 个 问题 和 回答 在 数据 库 中 都 有 对 应 的 条 目 ， 所 以 我 们 可 以 将 每 行 〈 即 每 次 采访 ) 所 有 的 

回答 合并 在 一 起 。 本 行 代码 创建 一 个 字典 ， 其 中 包含 每 次 采访 中 每 个 回答 的 必要 数据 。 

@ 标题 列表 中 第 二 个 元 素 是 问题 的 详细 说 明 。 本 行 代码 将 其 保存 为 question， 并 将 
UNICEF 问题 代码 保存 为 question_code。 

@ 为 了 记录 每 一 行 回答 (或 每 一 次 采访 )， 本 行 代码 添加 了 enumerate 函数 得 到 的 rownum。 

@ 最 后 ， 利 用 新 表 的 insert 方法 将 新 字典 插入 我 们 的 数据 库 中 。 


我 们 希望 将 清洗 过 的 数据 保存 到 SQLite 数据 库 中 。 我 们 创建 了 一 个 新 的 数据 库 ， 用 到 了 
enumerate 国 数 ， 这 样 我 们 可 以 合并 每 一 个 回答 (每 一 行 )。 如 果 我 们 要 访问 数据 ， 可 以 访 
问 新 表 ， 利 用 第 6 章 学 过 的 函数 来 查看 所 有 的 数据 记录 ， 并 在 需要 时 进行 检索 。 

如 果 你 希望 将 清洗 过 的 数据 导出 到 简单 文件 中 ， 应 该 也 很 容易 做 到 。 我 们 来 看 一 下 : 


from csv import writer 














































































































def write file(zipped_data, file_name): 
with open(file name, 'wb') as new_csv_file: © 
wrtr = writer(new_csv file) @ 
titles = [row[0][1] for row ;in zipped_data[0]] © 
wrtr.writerow(titles) @ 
for row in zipped_data: 
answers = [resp[1] for resp in row] © 
wrtr .writerow(answers) 


write file(zipped_data, 'cleaned_unicef data.csv') @ 


@ with...as 的 作用 是 将 第 一 个 函数 的 输出 赋值 给 第 二 个 变量 名 。 本 行 代码 将 新 文件 
open(file_name，'wb') 赋值 给 变量 new_csv_file。'wb' 的 意思 是 以 二 进 制 模式 写 入 。 

如 初始 化 CSV writer 对 象 ， 传 入 一 个 打开 的 文件 ， 然 后 将 writer 对 象 赋值 给 wrtr 变量 。 

四 writer 对 象 需 要 数据 列表 来 逐 行 写 信 ， 本 行 创建 的 是 标题 行 的 标题 列表 。 长 标题 是 元 组 
第 一 部 分 的 第 二 个 元 素 ， 所 以 对 应 的 代码 是 row[9][1]。 
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@ 用 到 了 writer 对 象 的 writerow 方法 ， 将 一 个 可 迭代 对 象 转换 成 一 行 逗号 分 隔 的 数据 。 本 
行 代码 写 入 的 是 标题 行 。 

@ 利用 列表 生成 式 提取 出 所 有 回答 (元 组 的 第 二 个 元 素 )。 

@ 将 利用 列表 生成 式 创建 的 所 有 列表 或 回答 写 入 CSV 数据 文件 。 

这 里 我 们 用 到 了 学 过 的 语法 ， 也 用 到 了 一 些 新 语法 。 我 们 已 经 学 过 如 何 用 with.. .as 将 简 

单 函 数 的 返回 值 赋值 给 一 个 变量 名 。 这 里 我 们 希望 将 打开 的 文件 赋值 给 new_csv_file 变 

量 。 这 种 语法 通常 用 于 文件 和 其 他 IO 对 象 ， 因 为 Python 执行 完 with 代码 块 中 的 代码 之 

后 ， 它 会 自动 关闭 文件 ， 这 很 棒 ! 

此 外 ， 代 码 中 我 们 用 到 了 CSV writer 对 象 ， 与 CSV reader 对 象 的 用 法 类 似 。writerow 可 以 

将 包含 所 有 数据 列 的 列表 写 入 到 CSV 文件 中 。 





























writerow 方法 接受 一 个 可 迭代 对 象 ， 所 以 一 定 要 传人 一 个 列表 或 元 组 。 如 果 
你 传人 一 个 字符 串 ， 那 么 看 到 一 些 有 趣 的 CSV_ (“lji,ke, ,bhsi,s”) 时 不 要 惊讶 。 








我 们 还 用 到 了 列表 生成 式 来 创建 标题 列表 和 回答 列表 。 由 于 我 们 不 需要 用 这 个 函数 生成 一 
个 新 对 象 或 修改 过 的 对 象 ， 所 以 没有 返回 任何 值 。 这 个 函数 可 以 帮 我 们 复习 目前 学 过 的 许 
多 概念 。 

如 有 果 你 想 用 其 他 方法 来 保存 数据 ， 可 以 参考 第 6 章 给 出 的 关于 保存 数据 的 建议 。 保 存 完 清 
洗 过 的 数据 之 后 ， 你 可 以 继续 进行 后 面 的 清洗 过 程 ， 并 对 数据 进行 分 析 。 
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8.3 ”找到 适合 项 目的 数据 清洗 方法 
根据 数据 的 可 靠 性 ， 以 及 你 分 析 数 据 的 频率 ， 你 可 以 选择 一 种 完全 不 同 的 数据 清洗 方式 。 
如 果 你 要 处 理 的 数据 是 非常 杂乱 的 ， 或 者 有 许多 不 同 的 来 源 ， 你 可 能 无 法 准确 地 将 清洗 过 
程 脚本 化 。 














你 需要 分 析 将 数据 清洗 完全 脚本 化 所 要 付出 的 时 间 和 精力 ， 然 后 判断 数据 清 
洗 自动 化 能 否 真 正 节省 时 间 。 





如 果 清 洗 过 程 特别 繁琐 ， 有 很 多 步 又 ， 你 可 能 需要 创建 一 个 包含 许多 辅助 脚本 的 仓库 。 这 
样 即 使 你 没有 一 个 按 顺序 完成 所 有 步骤 的 脚本 ， 这 个 仓库 也 会 为 你 提供 许多 函数 ， 在 整个 
数据 处 理 过 程 中 均 可 使 用 ， 还 可 以 让 你 处 理 新 数据 时 速度 更 快 。 举 个 例子 ， 你 有 一 些 在 列 
表 或 矩阵 中 搜索 重复 值 的 脚本 ， 还 有 一 些 函 数 ， 可 以 从 CSV 导入 或 导出 数据 ， 或 者 格式 化 
字符 串 和 日 期 。 对 于 这 种 方法 ， 你 可 以 随时 导入 这 些 函 数 并 使 用 ， 可 以 在 IPython 或 Jupyter 
中 导入 使 用 (我们 会 在 第 10 章 中 学 到 ) ， 也 可 以 在 当前 仓库 的 其 他 文件 中 导入 使 用 。 


如 果 你 的 清洗 代码 有 固定 的 规律 ， 不 太 可 能 发 生变 化 ， 那 么 可 以 将 整个 清洗 过 程 脚本 化 。 
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8.4 数据 清洗 脚本 化 
随 着 你 的 Python 知识 的 逐步 深化 与 丰富 ， 你 编写 的 Python 代码 也 会 逐渐 变 得 复杂 。 现 在 
Rh es 
始 将 代码 脚本 化 了 。 脚 本 化 (scripting) 的 意思 是 ， 确 定 代 码 的 结构 ， 用 于 后 续 使 用 、 学 
习 和 分 享 。 

以 UNICEF 数据 为 例 。 我 们 知道 ，UNICEF 每 隔 几 年 会 发 布 这 些 数 据 集 ， 其 中 许多 数据 是 
不 变 的 。 调 查 不 大 可 能 发 生 较 大 变化 一 一 它 是 建立 在 多 年 经 验 的 基础 之 上 。 考 虑 到 这 些 事 
实 ， 我 们 可 以 信任 这 些 数据 集 有 相当 高 的 一 致 性 。 如 果 我 们 需要 再 次 用 到 UNICEF 数据 ， 
可 能 至 少 可 以 复 用 第 一 次 写 的 脚本 中 的 一 部 分 代码 。 


目前 我 们 代码 的 结构 比较 简单 ， 也 缺少 代码 文档 。 除 了 可 读 性 较 差 外 ， 这 样 的 代码 还 很 难 
复 用 。 虽 然 现在 我 们 可 以 看 懂 自 己 写 的 函数 ， 但 一 年 后 我 们 还 能 准确 地 读 懂 并 理解 这 些 函 
数 吗 ?我 们 把 这 些 函 数 发 给 同事 ， 他 们 能 看 懂 我 们 的 笔记 吗 ? 在 我 们 对 这 些 问题 做 出 肯定 
的 回答 之 前 ， 最 好 一 行 代码 也 不 要 写 。 如 果 一 年 后 我 们 无 法 读 懂 自己 的 代码 ， 那 么 这 些 代 
码 是 没有 任何 用 处 的 ， 当 发 布 新 报告 时 会 有 人 (很 可 能 是 我 们 自己 ) 重新 写 这 些 代码 。 

Python 之 禅 不 仅 适用 于 编写 代码 ， 还 适用 于 组 织 代码 ， 函 数 、 变 量 和 类 的 命名 ， 等 等 。 最 


好 在 选择 命名 上 花 点 时 间 ， 判 断 哪些 名 字 可 以 让 你 和 他 人 都 一 目 了 然 。 注 释 和 文档 可 以 帮 
助理 解 ， 但 代码 本 身 也 应 该 具有 较 强 的 可 读 性 。 








































































































经 常 有 人 称赞 Python 是 最 容易 读 懂 的 语言 之 一 ， 即 使 是 看 不 懂 代 码 的 人 也 能 
读 懂 ! 保持 代码 语法 简洁 可 读 ， 这 样 解释 代码 功能 的 文档 也 不 需要 太 长 。 











Python 之 禅 
Python 之 禅 (https://www.python.org/dev/peps/pep-0020/) 总 是 非常 值得 参考 的 (还 可 
以 输入 import this 来 轻松 查看 )。 它 的 要 点 是 ， 对 于 Python ae 语言 ) 来 说 ， 尽 


可 能 保持 明确 、 简 洁 和 实用 总 是 最 好 的 。， 


随 着 你 编程 水 平 的 提高 ， 明 确 和 实用 的 含义 可 能 会 发 生变 化 ， 但 我 们 强烈 建议 你 尽 可 
能 保持 代码 清晰 、 精 确 和 简单 。 有 时 可 能 会 使 代码 量变 大 或 者 运行 时 间 变 长 ， 但 随 着 
经 验 地 增长 ， 你 总 会 找到 方法 将 代码 写 得 既 快 速 又 清晰 。 

现 阶段 应 该 将 代码 写 得 尽 可 能 清晰 ， 这 样 以 后 回 看 代码 时 ， 你 可 以 理解 自己 当时 的 


意思 
总 心 。 














通读 PEP-8 Python 风格 指南 (https:Wwww.python.org/dev/peps/pep-0008/) ， 并 遵守 里 面 的 规 
则 。 有 许多 PEP-8 的 检查 工具 (linter)， 可 以 通读 你 的 代码 ， 并 指出 其 中 不 符合 PEP-8 的 
地 方 。 


























注 1: 中 文 版 Python 之 禅 可 参见 : https://wiki.python.org/moin/PythonZenChineseTranslate。 译 者 注 
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除了 风格 标准 和 用 法 ， 你 还 可 以 用 检查 工具 评估 代码 的 复杂 度 。 有 些 是 根据 McCabe 关于 
循环 复杂 度 的 理论 和 计算 方法 (https://en.wikipedia.org/wiki/Cyclomatic_complexity) 来 对 
代码 进行 分 析 。 虽 然 不 是 每 次 都 能 将 代码 分 割 成 简单 的 代码 块 ， 但 你 应 该 尽量 将 复杂 任务 
拆 分 成 更 小 、 更 简单 的 任务 ， 降 低 代 码 复 杂 度 ， 使 代码 更 明确 。 


在 使 代码 更 加 清晰 明确 的 同时 ， 另 一 个 很 有 用 的 做 法 是 ， 让 可 复 用 的 代码 块 更 加 通用 。 但 
注意 不 要 过 于 一 般 化 (def foo 这 样 的 定义 毫 无 用 处 )， 但 如 果 你 创建 通用 的 辅助 函数 ， 你 
将 会 经 常用 到 它们 (例如 用 一 个 列表 创建 CSV， 或 者 用 包含 重复 值 的 列表 创建 一 个 集合 )， 
你 的 代码 也 会 更 加 有 序 、 简 洁 和 简单 。 


























如 果 所 有 报告 都 用 相同 的 代码 连接 数据 库 或 打开 数据 文件 ， 你 可 以 为 此 创建 
一 个 函数 。 编 写 通 用 的 辅助 函数 ， 其 目的 是 创建 简单 、 可 读 、 可 用 且 不 重复 
的 代码 。 

















表 8-1 汇总 了 一 些 编程 的 最 佳 实践 ， 你 可 以 在 以 后 的 编程 中 考虑 这 些 做 法 。 这 些 最 佳 实践 
并 没有 包含 关于 Python 和 编程 的 所 有 内 容 ， 但 可 以 为 今后 的 学 习 和 编程 打下 良好 的 基础 。 


表 8-1: Python 编程 最 佳 实践 




































































实践 说 明 

文档 包括 代码 中 的 注释 、 函 数 说 明和 脚本 说 明 ， 以 及 README.md 文件 和 仓库 中 其 他 
必要 的 说 明文 件 

命名 清晰 所 有 国 数 、 变 量 和 文件 都 应 该 有 清晰 的 命名 ， 从 名 字 中 就 可 以 看 出 其 内 容 或 功能 

语法 正确 变量 和 函数 应 该 遵守 正确 的 Python 语法 〈 一 般 用 小 写字 母 ， 单 词 之 间 加 下 划 线 ， 
对 于 类 名 采用 驼峰 式 大 小 写 (CamelCase，https://en.wikipedia.org/wiki/CamelCase)， 
代码 应 遵守 PEP-8 标准 

导入 只 导入 需要 使 用 的 内 容 ， 导 入 方式 遵守 PEP-8 的 原则 

辅助 函数 创建 抽象 的 辅助 函数 ， 使 代码 变 得 清晰 、 可 复 用 (例如 ，export_to_csv 函数 将 列 
表 内 容 导 入 CSV 文件 ) 

仓库 管理 用 逻辑 结构 和 层级 结构 管理 仓库 ， 共 用 的 代码 放 在 一 起 ， 符 合 一 般 的 逻辑 规律 

版 本 控制 所 有 代码 都 应 访 有 版 本 控制 ,这样 你 或 你 的 同事 可 以 创建 新 分 支 、 尝 试 新 特性 ， 而 
不 会 影响 仓库 主 分 支 的 运行 






















































































快速 ， 但 是 更 要 清晰 ”利用 Python 语法 糖 写 出 快速 高 效 的 代码 ， 但 当 速度 和 清晰 只 能 二 选 一 时 ， 选 择 清 
晰 的 代码 

利用 现成 的 库 当 你 想 做 点 什么 ， 而 前 人 已 经 用 Python 做 过 了 ， 不 要 重复 造 轮子 。 善 于 利用 优秀 
的 Python 库 ， 对 这 些 库 做 贡献 来 帮助 开源 社区 

代码 测试 在 适当 可 行 的 时 候 ， 为 单个 函数 编写 测试 ， 并 利用 测试 数据 来 测试 代码 

详实 准确 在 try 代码 块 中 正确 地 编写 例外 (exception) ， 代 码 文档 要 详实 ， 变 量 名 要 准确 


为 代码 编写 文档 是 编写 脚本 的 一 个 重要 步骤 。 正 如 Eric Holscher (Python 主义 者 ，Write 
the Docs 的 创始 人 之 一 ) 恰如其分 地 总 结 (http:/www.writethedocs.org/guide/writing/ 
mr le rn et dee :可 能 会 再 
次 用 到 这 些 代码 者 其 能 会 尔 想 发 布 到 GitHub 上 ， 
或 者 你 起 在 以 后 的 面试 中 用 到 或 者 你 想 将 代码 发 你 母 来， 元 i 企 什么 原因 ， 为 代码 编写 












































完备 的 文档 ， 可 以 在 未 来 减少 数 小 时 的 痛 若 。 如 果 你 是 团队 的 一 员 ， 还 会 减少 整个 团队 数 
百 小 时 的 痛苦 。 想 到 未 来 会 有 这 些 好 处 ， 现 在 值得 花 精力 坐 下 来 分 析 代 码 的 用 途 ， 以 及 这 
么 编写 的 原因 。 

类 似 Read the Docs (https://readthedocs.org/) 或 者 Write the Docs (http://www.writethedocs. 
org/) 之 类 的 机 构 给 出 了 许多 好 的 建议 和 帮助 ， 使 编写 文档 变 得 更 加 轻松 。 一 个 好 的 经 验 
做 法 是 ， 在 项 目 根 目录 里 创建 一 个 README.md， 简 要 说 明代 码 的 作用 、 安 装 方法 和 运行 
方法 、 基 本 要 求 以 及 在 哪里 可 以 找到 更 多 信息 。 


























有 时 在 README.md 里 放 一 个 简短 的 代码 示例 也 是 很 有 用 的 ， 这 取决 于 用 户 
(读者 ) 与 核心 组 件 的 交互 次 数 多 少 。 








除了 README.md 文件 ， 你 还 需要 添加 代码 注释 。 第 5 章 中 说 过 ， 注 释 可 以 是 只 给 自己 看 
的 快速 笔记 ， 也 可 以 是 说 明 脚 本 和 函数 用 法 的 长 注释 。 

Python 中 各 种 注释 的 语法 和 用 法 在 PEP-350 (https:/www.python.org/dev/ 
peps/pep-0350/) 中 有 详细 说 明 。 遵 循 这 些 标准 ， 任 何人 都 可 以 轻松 看 懂 你 写 

的 注释 。 














我 们 来 尝试 为 之 前 的 清洗 代码 编写 文档 。 为 了 让 我 们 编写 文档 的 思路 清晰 ， 我 们 首先 简要 
列 出 需要 完成 的 任务 。 

。 从 UNICEF 数据 文件 中 导入 数据 。 

。 找到 数据 行 对 应 的 标题 。 

。 将 我 们 可 以 读 懂 的 标题 与 内 置 缩写 标题 正确 匹配 。 

。 解析 数据 ， 检 查 是 否 有 重复 值 。 

。 解析 数据 ， 检 查 数据 是 否 有 缺失 。 

。 将 同一 家 庭 的 多 行 数 据 合 并 。 

。 保存 数据 。 

上 述 任 务 基本 上 是 按 先后 顺序 排列 的 ， 列 出 这 些 任务 ， 可 以 让 我 们 在 组 织 代码 结构 、 编 写 
脚本 以 及 为 新 脚本 编写 文档 时 减轻 一 些 痛苦 。 

我 们 要 做 的 第 一 件 事 情 ， 就 是 将 本 章 和 上 一 章 写 的 所 有 代码 块 放 到 同一 个 脚本 文件 中 。 把 
它们 放 在 一 起 之 后 ， 我 们 可 以 开始 按照 规则 写 出 好 代码 。 我 们 来 看 一 下 当前 的 脚本 : 


from csv import reader 
import dataset 


data_rdr = reader(open('../../../data/unicef/mn.csv', 'rb')) 
header_rdr = reader(open('../../../data/unicef/mn_headers_updated.csv', 'rb')) 


data_rows = [d for d in data_rdr] 
header_rows = [h for h in header_rdr if h[0] ;in data_rows[0]] 


all_short_headers = [h[0] for h in header_rows] 
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skip_index = [] 
final_header_rows = [] 


for header in data_rows[0]: 
if header not in all_short_headers: 
print header 
index = data_rows[0].index(header) 
if index not in skip_index: 
skip_index.append(index) 
else: 
for head in header_rows: 
if head[0] == header: 
final_header_rows.append(head) 
break 


new_data = [] 


for row in data_rows[1:]: 
new_row = [] 
for i, d in enumerate(row): 
if i not in skip_index: 
new_row.append(d) 
new_data.append(new_row) 


zipped_data = [] 


for drow in new_data: 
zipped_data.append(zip(final_header_rows, drow)) 


# 检查 数据 是 否 有 缺失 
for x in zipped_data[0]: 
if not x[1]: 
print x 


# 检查 是 否 有 重复 值 


set_of_keys = set([ 
'%s-%s-%s' % (x[0][1], x[1][1], x[2][1]) for x in zitpped_data]) 


uniques = [x for x in zipped_data if not 
set_of_keys.remove('%s-%s-%s' % 
(x[OJ[1], x[1][1], x[2][1]))] 


print len(set_of_keys) 


# 保存 到 数据 库 





db = dataset.connect('sqlite:///../../data wrangling.db') 
table = db['unicef_survey'] 


for row_num, data in enumerate(zipped_data) : 
for question, answer in data: 
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data_dict = { 
'question': question[1], 
'question_ code': question[0], 
'answer': answer, 
"response_number ' : row_num， 
'suyrvey': "mn'， 


} 
table.insert(data_dict) 


可 以 看 出 ， 大 部 分 代码 都 是 扁平 的 (fat) ， 即 没有 重要 性 的 从 套 关系 。 文 件 中 大 部 分 代码 
和 国 数 都 没有 缩 进 或 文档 。 代 码 本 身 不 够 抽象 ， 变 量 名 也 不 够 清晰 。 我 们 从 头 开始 解决 这 
些 问 题 。 前 两 段 代码 重复 。 我 们 可 以 编写 一 个 函数 来 代替 : 

def get_rows(file name): 


rdr = reader(open(file name, 'rb')) 
return [row for row in rdr] 


有 了 这 个 函数 ， 现 在 我 们 的 文件 就 变 短 了 。 我 们 来 看 下 一 段 代码 是 否 还 能 进一步 改进 。 
我 们 修改 header_rows 使 其 与 data_rows 里 的 标题 对 齐 ， 花 了 不 少时 间 ， 但 现在 已 经 不 需 


要 这 段 代 码 了 。 我 们 创建 了 finaL_header_rows， 里 面 的 header_rows 和 data_rows 已 经 匹 
配 好 了 ， 所 以 我 们 无 需 担心 二 者 不 匹配 的 问题 。 我 们 可 以 删除 这 行 代 码 。 


14~27 行 的 作用 是 创建 final_header_rows 和 skip_index 两 个 列表 。 我 们 可 以 将 这 两 个 列 
表 的 用 途 总 结 一 下 ， 就 是 用 于 删除 不 匹配 的 元 素 ， 这 样 我 们 才能 合并 最 终 列 表 。 我 们 把 两 
个 列表 放 在 同一 个 方法 中 : 
def eliminate_ mismatches(header_rows, data_rows): 
all_short_headers = [h[0] for h ;in header_rows] 
skip_index = [] 
final_header_rows = [] 























for header in data_rows[0]: 
if header not in all_short_headers: 
index = data_rows[0].index(header) 
if index not in skip_index: 
skip_index.append(index) 
else: 
for head in header_rows: 
if head[0] == header: 
final_header_rows.append(head) 
break 
return skip_index, final_header_rows 


现在 我 们 已 经 将 清洗 脚本 中 的 很 多 代码 都 合并 成 函数 了 。 这 有 助 于 我 们 摘 述 每 一 个 函数 的 
功能 ， 编 写 代码 文档 ， 当 需要 修改 代码 时 知道 需要 查看 哪些 内 容 。 

我 们 继续 阅读 脚本 ， 看 能 否 找到 更 多 需要 修改 之 处 。 下 一 节 代 码 似乎 是 用 于 创建 合并 后 的 
数据 集 。 我 们 可 以 将 其 拆 分 为 两 个 函数 : 一 个 找 出 与 标题 匹配 的 数据 行 ， 另 一 个 合并 两 个 
列表 。 我 们 也 可 以 只 用 一 个 函数 来 创建 合并 后 的 数据 。 最 终 由 你 自己 决定 哪 种 方法 更 好 。 
这 里 我 们 用 的 是 一 个 国 数 外 加 一 个 简短 的 辅助 畏 数 ， 后 面 可 能 会 再 次 用 到 : 
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def zip data(headers, data): 
zipped_data = [] 
for drow in data: 
zipped_data.append(zip(headers, 
return zipped_data 


def 


new_data = [] 
for row in data_rows[1:]: 
new_row = [] 


drow)) 


create_zipped data(final_header_rows, data_rows, skip_index): 


for index, data in enumerate(row): 


if index not in skip_index: 
new_row.append(data) 
new_data.append(new_row) 
zipped_data 
return zipped_data 


有 了 这 些 新 函数 ， 我 们 可 以 保存 代码 、 清 浣 变 
合并 ， 并 返 
辑 应 用 到 文件 中 的 其 他 代码 。 我 们 来 看 一 下 最 





from csv import reader 
import dataset 


def get_rows(file_name): 
rdr = reader(open(file name, 'rb')) 
return [row for row in rdr] 


def 


all_short_headers 
skip_index = [] 
final_header_rows 


[] 


for header in data_rows[0]: 


zip_data(final_header_ 


rows, new_data) 








量 名 ， 还 可 以 利用 辅助 函数 将 标题 与 数据 行 


回合 并 后 的 数据 列表 。 代 码 更 加 清晰 ， 分 块 也 更 加 合理 。 我 们 继续 将 同样 的 逻 


终结 


-~ 一 口 


果 : 


eliminate mismatches(header_rows, data_rows): 
[h[0] for h in header_rows] 


if header not ;in all_short_headers: 
index = data_rows[0].index(header) 


if index not in skip_index: 
skip_index.append(index) 
else: 
for head in header_rows: 
if head[0] == header: 


final_header_rows.append(head) 


break 


return skip_index, final_header_rows 


def zip_data(headers, data): 
zipped_data = [] 
for drow in data: 
zipped_data.append(zip(headers, 
return zipped_data 


drow)) 
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def create zipped_data(final_header_rows, data_rows, skip_index): 

new_data = [] 
for row in data_rows[1:]: 

new_row = [] 

for index, data in enumerate(row): 

if index not in skip_index: 
new_row.append(data) 

new_data.append(new_row) 
zipped_data = zip data(final_header_rows, new_data) 
return zipped_data 


def find_missing_data(zipped_data): 
missing count = 0 
for question, answer in zipped_data: 
if not answer: 
missing_ count += 1 
return missing_count 


def find_duplicate_data(zipped_data): 
set_of_keys = set([ 
'%s-%s-%s' % (row[O][1], row[1][1], row[2][1]) 
for row in zipped_datal]) 


uniques = [row for row in zipped data if not 
set_of_keys.remove('%s-%s-%s' % 


(row[OJ[L1], row[1][1], rowL2][1]))] 


return uniques, len(set_of_keys) 


def save_to_sqlitedb(db_ file, zipped_data, survey_type): 
db = dataset.connect(db_ file) 


table = db['unicef_survey'] 
all_rows = [] 


for row_num, data in enumerate(zipped_data): 
for question, answer in data: 

data dict = { 
'question': question[1], 
'question code': question[0], 
'answer': answer, 
'response_number': row_num， 
'survey': Survey_type， 

} 


all_rows.append(data dict) 


table.insert_ many(all_rows) 


现在 我 们 有 了 许多 不 错 的 函数 ， 却 改变 了 程序 的 运行 方式 。 如 果 现 在 运行 这 个 脚本 ， 一 行 
代码 都 不 会 运行 。 只 有 一 些 写 好 的 函数 ， 却 都 没有 被 调用 。 
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现在 我 们 要 在 一 个 main 函数 中 说 明 使 用 这 些 函 数 的 方法 。Python 开发 者 一 般 会 将 通过 命 
令 行 运行 的 代码 放 到 main 函数 里 。 下 面 我 们 添加 main 函数 的 代码 ， 用 于 清洗 数据 集 : 


""" 这 部 分 代码 放 在 已 写 脚 本 的 下 面 。""" 








def main(): 

data_rows = get_rows('data/unicef/mn.csv') 

header_rows = get_ rows('data/unicef/mn_headers_updated.csv') 

skip_index, final_header_rows = eliminate mismatches(header_rows, 
data_rows) 

zipped_data = create_ zipped data(final_header_rows, data_rows, skip_index) 

Num_missing = find _ missing data(zipped_data) 

uniques, num_dupes = find_ duplicate data(zipped_data) 


if num_missing == 0 and num_dupes == 0: 
save_to_sqlitedb('sqlite:///data/data_ wrangling.db', zipped_data) 
else: 
error_msg = "" 
if num_missing: 
error_msg += 'We are missing {} values. '.format(num missing) 
if num_dupes: 
error_msg += 'We have {} duplicates. '.format(num_dupes) 


error_msg += 'Please have a look and fix!' 
print error_msg 


if __name _ == '__main__ 
main() 


现在 我 们 有 了 一 个 可 以 从 命令 行 运行 的 可 执行 文件 。 运 行 此 文件 会 发 生 什么 ”你 会 得 到 我 
们 刚刚 创建 的 错误 信息 ， 还 是 将 数据 保存 到 本 地 的 SQLite 数据 库 中 ? 








使 一 个 文件 可 以 在 命令 行 中 运行 
大 多 数 可 以 在 命令 行 中 运行 的 Python 文件 都 有 一 些 相 同 的 属性 。 它 们 一 般 都 有 一 个 
main 有 函数 ， 里 面 再 调用 小 型 函数 或 辅助 函数 ， 和 我 们 上 面 的 清洗 脚本 类 似 。 
main 汤 数 一 般 会 在 文件 的 主 缩 进 级 别 的 代码 块 中 进行 调用 。 调 用 的 语法 是 if _nane 
== '__main_':。 这 个 语法 用 到 了 全 局 的 私有 变量 (所 以 变量 名 两 边 才 有 双 下 划 线 )， 
当 你 在 命令 行 运 行文 件 时 会 返回 True。 
如 果 不 是 在 命令 行 中 运行 脚本 ， 那 么 if 语句 中 的 代码 不 会 运行 。 如 果 我 们 将 这 些 函 数 
导入 另 一 个 脚本 中 ，__name_ _ 变量 不 等 于 '_ main '， 代 码 就 不 会 运行 。 这 是 Python 
脚本 常用 的 约定 。 














遇 到 任何 错误 ， 检 查 你 的 代码 和 上 述 代 码 是 否 完全 相同 ， 检 查 仓 库 中 数据 
的 文件 路 径 是 否 正确 ， 还 要 检查 第 6 章 创建 的 本 地 数据 库 的 文件 路 径 是 否 
正确 。 








下 面 我 们 来 为 代码 编写 文档 。 我 们 要 给 函数 添加 一 些 文档 字符 串 和 行内 注释 ， 方 便 我 们 理 
解 脚本 中 比较 复杂 的 代码 段 ， 还 要 在 脚本 开头 添加 一 大 上 段 说 明文 字 ， 这 些 文字 以 后 可 以 放 
到 README.md 文件 中 : 

















Usage: python our_cleanup_script.py 


This script is used to intake the male survey data from UNICEF 

and save it to a simple database file after it has been checked 

for duplicates and missing data and after the headers have been properly 
matched with the data. Tt expects there to be a 'mn.csv' file with the 

data and the 'mn_updated headers.csv' file in a subfolder called 'unicef' within 
a data folder in this directory. Tt also expects there to be a SQLite 

file called 'data_wrangling.db' in the root of this directory. Finally, 

it expects to utilize the dataset library 
(http://dataset.readthedocs.org/en/latest/). 


If the script runs without finding any errors, it will save the 
cleaned data to the 'unicef_survey' table in the SQLite. 
The saved data will have the following structure: 

- question: string 

- question code: string 

- answer: string 

- response_number: integer 

- survey: string 


The response number can later be used to join entire responses together 
(i.e., all of response_number 3 come from the same interview, etc.). 


If you have any questions, please feel free to contact me via ... 


mam 


from csv import reader 
import dataset 


def get_rows(file name): 
"""Return a list of rows from a given csv filenanme. 
rdr = reader(open(file name, 'rb')) 
return [row for row in rdr] 


Mmm 


def eliminate_mismatches(header_rows, data_rows): 
Return index numbers to skip in a list and final header rows in a list 
when given header rows and data rows from a UNICEF dataset. This 
function assumes the data_rows object has headers in the first element. 
Tt assumes those headers are the shortened UNICEF form. Tt also assumes 
the first element of each header row in the header data is the 
shortened UNICEF form. It will return the list of indexes to skip in the 
data rows (ones that don't match properly with headers) as the first element 
and will return the final cleaned header rows as the second element. 


Mmmm 


aLL_short_headers = [h[0] for h in header_rows] 
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skip_index = [] 
final_header_rows = [] 


for header in data_rows[0]: 
if header not ;in all_short_headers: 
index = data_rows[0].index(header) 
if index not in skip_index: 
skip_index.append(index) 
else: 
for head in header_rows: 
if head[0] == header: 
final_header_rows.append(head) 
break 
return skip_index, final_header_rows 


def zip_data(headers, data): 
Return a list of zipped data when given a header list and data list. Assumes 
the length of data elements per row and the length of headers are the sanme. 


example output: [(['qguestion code', 'qguestion summary', 'qguestion text'], 
"esp wn) 


mm 


zipped_data = [] 

for drow in data: 
zipped_data.append(zip(headers, drow)) 

return zipped_data 


def create zipped_data(final_header_rows, data_rows, skip_index): 

Returns a list of zipped data rows (matching header and data) when given a 
list of final header rows, a list of data rows, and a list of indexes on 
those data rows to skip as they don't match properly. The function assumes 
the first row in the data rows contains the original data header values, 
and will remove those values from the final list. 
new_data = [] 
for row in data_rows[1:]: 

new_row = [] 

for index, data in enumerate(row): 

if index not in skip_index: 
new_row.append(data) 

new_data.append(new_row) 
zipped_data = zip data(final_header_rows, new_data) 
return zipped_data 


def find_missing_data(zipped_data) : 
Returns a count of how many answers are missing in an entire set of zipped 
data. This junction assumes all responses are stored as the second element. 
Tt also assumes every response is stored in a list of these matched question, 
answer groupings. It returns an integer. 
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def 


def 


missing count = 0 
for response in zipped_data: 
for question, answer in response: 
if not answer: 
missing count += 1 
return missing_count 


find_duplicate data(zipped_data): 

Returns a list of unique elements and a number of duplicates found when given 
a UNICEF zipped_data list. This function assumes that the first three rows of 
data are structured to have the house, cluster, and line number of the 
interview and Uses these values to create a unigque key that should not be 
repeated. 


Mmmm 


set_of_keys = set([ 
'%s-%s-%s' % (row[O][1], row[1][1], row[2][1]) 
for row in zipped_datal]) 


#TODO: this will throw an error if we have duplicates- we should find a way 
#around this 
uniques = [row for row in zipped_data if not 

set_of_keys.remove('%s-%s-%s' % 


(row[OJ[L1], row[1][1], rowL2][1]))] 


return uniques, len(set_of_keys) 


save_to_sqlitedb(db file, zipped_ data, survey_type): 

When given a path to a SQLite file, the cleaned zipped_ data, and the 

UNICEF survey type that was used, saves the data to SQLite in a 

table called 'unice survey' with the following attributes: 
question, question_ code, answer, response_number, survey 


Mmmm 


db = dataset.connect(db_ file) 


table = db['unicef_survey'] 
all_rows = [] 


for row_num, data in enumerate(zipped_data): 
for question, answer in data: 

data dict = { 
'question': question[1], 
'question code': question[0], 
'answer': answer, 
'response_number': row_num， 
'survey': Survey_type， 

} 


all_rows.append(data dict) 


table.insert_many(all_rows) 
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def main(): 
Import all data into rows, clean it, and then if 
no errors are found, save it to SQlite. 
If there are errors found, print out details so 
developers can begin work on fixing the script 
or seeing if there is an error in the data. 


Ua 


#TODO: we probably should abstract these files so that we can pass 
# them in as variables and use the main function with other surveys 
data_rows = get_rows('data/unicef/mn.csv') 
header_rows = get_rows('data/unicef/mn_updated_ headers.csv') 
skip_index, final_header_rows = eliminate mismatches(header_rows, 
data_rows) 

zipped_data = create_ zipped data(final_header_rows, data_rows, skip_index) 
Num_missing = find _ missing_ data(zipped_data) 
uniques, num_ dupes = find_duplicate data(zipped_data) 
if num_missing == 0 and num_dupes == 0: 

#TODO: we probably also want to abstract this 

# file away, or make sure it exists before continuing 

save_to_ sqlite('sqlite:///data _ wrangling.db', zipped data, 'mn') 
else: 

#TODO: eventually we probably want to log this, and 

# maybe send an enmail if an error is thrown rather than print it 


error_msg = 
if num_missing: 

error_msg += 'We are missing {} values. '.format(num missing) 
if num_dupes: 

error_msg += 'We have {} duplicates. '.format(num_dupes) 


error_msg += 'Please have a Look and fix!' 
print error_msg 


if _name _ == '__main__': 


main() 
现在 我 们 的 代码 文档 更 详细 、 结 构 更 合理 ,还 有 许多 可 复 用 的 函数 。 对 于 我 们 的 第 一 个 脚 
本 来 说 ， 这 是 一 个 很 好 的 开始 。 利 用 这 些 代码 ， 希 望 我 们 可 以 导入 许多 UNICEF 数据 ! 








我 们 还 在 代码 里 添加 了 许多 “TODO”( 待 办 ) 的 注释 ， 这 样 我 们 以 后 可 以 继 
续 完 善 脚本 。 你 认为 哪个 问题 是 最 迫切 需要 解决 的 ?为 什么 ?你 能 尝试 解决 
这 个 问题 吗 ? 








我 们 只 用 了 一 个 文件 来 运行 代码 。 但 随 着 代码 量 的 增加 ， 你 的 仓库 也 会 变 得 越 来 越 复 杂 。 
在 初期 就 要 思 萎 你 可 能 需要 向 仓库 中 添加 的 内 容 ， 这 一 点 是 很 重要 的 。 代 码 和 代码 结构 很 
相似 。 如 果 你 认为 这 个 仓库 可 能 的 用 途 不 仅仅 是 解析 UNICEF 数据 ， 你 的 代码 结构 可 能 会 
大 不 相同 。 


为 什么 会 这 样 ? 首先 ， 你 可 能 需要 将 数据 保存 在 一 个 单独 的 文 从 




















™ 








中 。 事 实 上 ， 根 据 你 的 仓 
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De 





在 仓库 的 结构 中 ， 经 常会 有 一 个 名 为 u 





库 未 来 的 复杂 程度 ， 你 可 能 需要 在 不 同 的 文件 夹 中 使 用 不 同 的 数据 解析 方法 和 清洗 方法 。 


在 初期 不 必 过 分 担心 这 些 决策 。 随 着 你 Python 编程 水 平 的 提高 和 对 数据 集 的 
里 解 进一步 加 深 ， 你 会 更 清楚 地 认识 到 应 该 从 哪里 开始 。 





tils 或 common 的 文件 夹 ， 你 可 以 在 里 面 保 存 代 码 之 














间 共 享 的 脚本 。 许 多 开发 者 将 数据 库 连 接 脚 本 ， 常 用 的 API 代码 和 通信 或 email 脚本 等 保 
存在 这 样 的 文件 夹 中 ， 方 便 导 入 其 他 脚本 中 。 























你 可 能 创建 了 多 个 目录 来 保存 项 目的 不 同 内 容 ， 具 体 取决 于 仓库 的 管理 结构 。 其 中 一 个 目 
录 只 和 UNICEF 数据 有 关 。 另 一 个 目录 可 能 包含 网 络 抓 取 脚 本 或 最 终 报告 代码 。 如 何 组 织 
仓库 的 结构 由 你 自己 决定 。 永 远 保持 清晰 、 明 确 、 有 序 。 


如 果 你 最 后 不 得 不 重新 组 织 仓 库 结构 ， 


那么 在 开始 时 就 尽 可 能 保持 仓库 有 序 ， 后 面 就 不 会 








太 过 痛苦 。 相 反 ， 如 果 你 的 仓库 里 都 是 800 行 的 文件 ， 而 且 没 有 清晰 的 文档 ， 那 么 你 要 做 
的 事情 就 很 多 了 。 最 好 的 经 验 做 法 是 最 开始 给 出 结构 框架 ， 随 着 仓库 内 容 的 增加 和 变化 对 








结构 进行 临时 调整 。 
除了 良好 的 文件 结构 ， 保 持 目录 、 文 人 





F、 函 数 和 类 的 命名 清晰 明确 也 是 很 有 用 的 。 在 utils 


文件 夹 中 可 能 有 多 个 文件 。 如 果 你 将 其 命名 为 utils1、utils2 等 ， 你 可 能 需要 打开 文件 才能 
知道 它们 的 有 具体 内 容 。 但 如 果 你 将 其 命名 为 email.py、database.py、twitter_api.py 等 ， 文 件 


























名 本 身 就 包含 了 更 多 信息 。 





data_wrangling_repo/ 
|-- README.md 
-- data wrangling.db 
-- data/ 
`-- unicef/ 
|-- mn.csv 





在 代码 中 尽量 保持 明确 ， 对 长 期 而 成 功 的 Python 数据 处 理事 业 是 一 个 良好 的 开端 。 我 们 思 
考 一 下 仓库 的 结构 ， 看 如 何 找 到 相应 的 文件 : 





k 


|-- mn_updated_headers.csv 


`-- wm_headers.csv 
-- scripts/ 
`-- unicef/ 


-- unicef_cleanup.py (本 章 的 脚本 ) 


| 
| 
| 
| 
| 
| |-- wm.csv 
| 
| 
| 
| 


-- utils/ 
|-- databases.py 
‘-- emailer.py 


我 们 还 没有 编写 databases 或 emailer 文件 ， 但 我 们 或 许 应 该 这 么 做 。 我 们 还 可 以 向 文件 结 


构 中 添加 哪些 内 容 ? 我 们 在 仓库 中 创建 了 两 个 不 同 的 unicef 文件 来， 你 认为 这 么 做 的 原因 





是 什么 ?开发 者 是 否 应 该 将 数据 文件 和 脚本 文件 分 开 保存 ? 
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你 的 项 目 文件 结构 可 能 和 这 个 类 似 ， 但 要 记得 ， 数 据 通常 都 不 保存 在 仓库 
中 。 将 项 目的 数据 文件 保存 在 共享 文件 服务 器 或 本 地 网 络 的 其 他 位 置 。 如 果 
你 是 独立 开发 ， 一 定 要 在 其 他 地 方 备份 。 不 要 将 这 些 大 文件 提交 到 你 的 仓库 
中 。 这 样 不 仅 会 在 需要 在 新 设备 上 查看 仓库 时 降低 工作 效率 ， 而 且 也 不 是 管 
理 数据 的 好 方法 。 














我 们 也 建议 不 要 将 db 文件 或 任何 log、config 文件 提交 到 仓库 中 。 仓 库 结 构 应 尽 可 能 实用 。 
你 总 是 可 以 将 预期 的 文件 结构 添加 到 README.md 文件 中 ， 并 详细 说 明 去 哪里 获取 数据 文件 。 





























Git 和 .gitignore 文件 
如 果 你 还 没有 用 Git (https://git-scem.com/) 做 版 本 控制 的 话 ， 学 完 本 书 就 会 用 了 1! 版 本 
控制 可 以 让 你 创建 仓库 来 管理 和 修改 代码 ， 并 将 其 分 享 给 团队 或 其 他 同事 。 


在 第 14 章 中 我 们 将 会 深入 讲解 Git， 但 现在 我 们 在 讨论 仓库 结构 ， 项 望 重 点 说 一 
下 .gitignore 文件 (https://github.com/github/gitignore) 。.gitignore 文件 的 作用 是 ， 让 Git 
忽略 某 些 文件 ， 不 要 将 这 些 文件 上 传 到 仓库 中 。 这 个 文件 使 用 简单 模式 来 匹配 文件 名 ， 
与 我 们 在 第 7 章 中 学 过 的 正则 表达 式 类 似 。 

在 我 们 的 仓库 结构 中 ， 我 们 可 以 用 一 个 .gitignore 文件 ， 这 样 Git 就 不 会 将 任何 数据 文件 
提交 到 仓库 中 。 然 后 我 们 可 以 在 README.md 中 说 明 仓库 的 结构 ， 给 出 获取 数据 文件 的 
联系 信息 。 这 样 我 们 的 仓库 就 比较 简洁 ， 且 易于 下 载 ， 还 可 以 保持 良好 的 代码 结构 。 











创建 一 个 符合 逻辑 的 仓库 结构 ， 并 添加 README.md 和 .gitignore 文件 ， 可 以 保持 模块 化 
代码 的 项 目 文件 夹 有 序 ， 并 避免 将 大 型 数据 文件 或 可 能 敏感 的 数据 (数据 库 或 登录 数据 ) 
放 在 仓库 中 。 


8.5 用 新 数据 测试 


前 面 我 们 已 经 学 习 了 编写 文档 、 代 码 脚 本 化 、 组 织 代码 结构 ， 现 在 我 们 应 该 编写 一 些 济 
试 ,或 者 用 新 数据 来 测试 。 这 可 以 帮 我 们 检查 代码 的 运行 是 否 正确 ， 是 否 与 与 预期 相同 ， 
还 可 以 明确 代码 的 含义 。 我 们 将 数据 清洗 脚本 化 的 原因 之 一 就 是 我 们 可 以 复 用 这 些 代 码 ， 
因此 用 新 数据 测试 可 以 证 明 我 们 在 代码 标准 化 上 花 的 时 间 和 精力 是 值得 的 。 

测试 刚 写 过 的 脚本 的 一 种 方法 是 ， 我 们 能 否 将 其 轻松 应 用 于 在 UNICEF 网 站 上 找到 的 
相似 数据 。 我 们 来 看 一 下 。 你 应 该 已 经 从 本 书 仓库 (https://github.com/jackiekazil/data- 
wrangling) 中 下 载 了 wm.csv 和 wm_headers.csv 两 个 文件 。 这 两 个 文件 是 津巴布韦 UNICEF 
数据 中 的 女性 调查 数据 。 

我 们 尝试 在 脚本 中 使 用 这 些 文件 ， 赫 换 男 性 调查 数据 。 要 做 到 这 一 点 ， 我 们 只 需 修改 清洗 
脚本 中 的 两 个 文件 名 ， 将 其 修改 为 两 个 妇女 调查 数据 文件 的 路 径 。 我 们 还 应 该 将 调查 类 型 
修改 为 "wm' ， 这 样 我 们 才能 区 分 两 个 数据 集中 的 数据 。 





























女性 数据 集 要 比 男性 的 大 得 多 。 如 果 你 有 未 保存 的 数据 ， 我 们 建议 先 保 存 数 
据 ， 关 闭 其 他 程序 ， 然 后 再 进行 下 一 步 。 关 于 这 一 点 ， 可 以 思考 一 下 如 何在 
脚本 中 改善 内 存 使 用 。 

















我 们 来 看 一 下 能 否 成 功 导入 数据 : 
import dataset 
db = dataset.connect('sqlite:///data_wrangling.db') 
wm_count = db.query('select count(*) from unicef_survey where survey="wm"') © 
count_result = wm_count.next() @ 


print count_result 


@ 我 们 用 的 是 直接 查询 ， 可 以 快速 查看 survey=wm 的 行 数 。 这 应 该 只 包括 我 们 将 类 型 设 为 
wm' 后 第 二 次 运行 的 数据 行 。 
@@ 读 取 查询 结果 ， 利 用 查询 响应 的 next 方法 提取 出 第 一 个 结果 。 我 们 用 的 是 count， 所 以 
我 们 应 该 只 得 到 一 个 结果 。 
我 们 从 女性 数据 集中 成 功 导入 了 超过 300 万 个 问题 和 回答 。 我 们 的 脚本 是 有 效 的 ， 我 们 可 
以 看 到 输出 结果 ! 
利用 相似 数据 测试 脚本 是 确保 脚本 按 预 期 运行 的 一 种 方法 。 从 中 还 可 以 发 现 ， 你 的 脚本 通 
用 性 很 高 ， 可 以 复 用 。 但 测试 代码 还 有 很 多 其 他 方法 。Python 有 不 少 很 好 的 测试 库 ， 可 以 
帮 你 编写 测试 脚本 和 应 用 测试 数据 (甚至 测试 API 响应 ) ， 从 而 保证 代码 正常 运行 。 
Python 标准 库 中 有 一 些 内 置 的 测试 模块 。unittest 库 (https://docs.python.org/2/library/ 
unittest.html) 可 以 为 Python 代码 做 单元 测试 。 它 有 一 些 好 用 的 内 置 类 ， 利 用 assert 语句 
来 测试 代码 是 否 正常 运行 。 如 果 想 为 代码 编写 单元 测试 ， 我 们 可 以 写 一 个 测试 ， 判 断 get_ 
rows 函数 返回 的 是 不 是 一 个 列表 。 我 们 还 可 以 判断 列表 长 度 和 文件 的 数据 行 数 是否 相 同 。 
我 们 可 以 用 这 些 断 言 测 试 每 一 个 函数 。 
另 一 个 流行 的 Python 测试 框架 是 nose 库 (https://nose.readthedocs.org/en/latest/)。nose 是 
一 个 非常 强大 的 测试 框架 ， 额外 插件 (https://nose.readthedocs.io/en/latest/plugins/builtin. 
html) 和 配置 可 以 提供 很 多 功能 选项 。 如 果 你 的 仓库 很 大 ， 许 多 开发 者 负责 同样 的 代码 ， 
有 不 同 的 测试 需求 ， 那 么 这 个 库 是 很 好 用 的 。 
不 知道 先 用 哪 一 个 ? 那么 pytest 库 (http://pytest.org/latest/) 可 能 适合 你 。 你 可 以 用 任意 一 
种 风格 编写 测试 ， 还 可 以 在 需要 时 换 用 另 一 种 风格 。 它 的 社区 也 相当 活跃 ， 里 面 有 许多 演 
讲 和 教程 (http://docs.pytest.org/en/latest/talks.html#talks-and-blog-postings)， 所 以 如 果 你 想 
深入 了 解 之 后 编写 自己 的 测试 ， 那 么 可 以 先 用 这 个 库 。 


通常 来 说 ， 测 试 集 的 结构 是 在 每 一 个 模块 下 有 一 个 测试 文件 (对 于 我 们 当前 
的 仓库 结构 来 说 ， 我 们 会 在 每 一 个 目录 下 放 一 个 测试 文件 ， 除 了 数据 文件 夹 
和 配置 文件 夹 )。 有 些 人 为 文件 夹 中 的 每 一 个 Python 文件 编写 一 个 测试 文件 ， 
所 以 很 容易 判断 每 项 测试 针对 的 是 哪 一 个 具体 文件 。 其 他 人 将 测试 放 在 一 个 
单独 的 目录 中 ， 甚 结构 与 Python 文件 结构 相同 。 
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无 论 你 选择 哪 种 测试 风格 或 文件 结构 ， 一 定 要 确保 前 后 一 致 、 风 格 明 确 。 这 样 你 就 会 知道 
在 哪里 可 以 找到 测试 文件 ， 你 (和 其 他 人 ) 也 可 以 在 必要 时 运行 这 些 测试 代码 。 


8.6 ”小结 


本 章 我 们 学 习 了 数据 标准 化 的 一 些 基 本 知识 ， 还 有 何 时 适合 做 数据 归 一 化 或 删除 离 群 值 。 
你 可 以 将 干净 的 数据 (来 自 第 6 章 ) 导入 到 数据 库 或 本 地 文件 中 ， 并 且 你 开始 为 那些 重复 
性 过 程 编写 了 条 理 更 加 清晰 的 函数 。 


此 外 ， 你 还 学 习 了 用 髓 套 文件 夹 和 正确 命名 的 文件 来 组 织 Python 仓库 结构 ， 开 始 编写 文档 
并 分 析 代 码 。 最 后 ， 你 对 测试 和 编写 测试 的 一 些 工 具有 了 基本 的 了 解 。 


表 8-2 列 出 了 本 章 讲 到 的 Python 概念 。 
表 8-2: Python 编程 的 新 概念 和 新 库 
















































































概念 / 库 作用 

数据 库 insert 方法 利用 insert 命令 可 以 将 数据 轻松 保存 到 SQLite 数据 库 中 

CSV writer 对 象 利用 csv 库 的 writer 类 ， 可 以 将 数据 保存 到 CSV 文件 中 

Python 之 禅 (import this) 像 Python 程序 员 一 样 写 代 码 和 思考 的 哲学 

Python 最 佳 实践 作为 一 名 新 的 Python 开发 者 ， 应 该 遵循 的 最 佳 实践 的 基本 框架 

Python 命令 行 运行 (if _nane_ ”利用 这 个 代码 块 对 脚本 进行 格式 化 ， 可 以 在 命令 行 中 运行 main 函数 

== '__ main ':) 

TODO 标记 利用 TODO 注释 ， 很 容易 发 现下 一 步 需要 对 脚本 做 哪些 改进 

Git (https://git-scem.com/) 帮助 记录 代码 变化 的 版 本 控制 系统 。 对 于 你 想 要 部 署 的 代码 或 想 要 与 
他 人 共享 的 代码 ， 这 一 点 是 绝对 必要 的 ， 而 且 对 于 本 地 的 个 人 项 目 也 
是 非常 有 用 的 。 第 14 章 会 介绍 Git 的 更 多 内 容 

















在 下 一 章 里 ， 我 们 将 学 习 数 据 分 析 ， 你 将 会 继续 练习 数据 清洗 和 数据 分 析 的 方法 ， 并 利用 
这 些 方法 来 分 析 新 的 数据 集 。 
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既然 已 经 花费 了 一 些 时 间 获 取 和 清洗 数据 ， 你 可 以 开始 做 数据 分 析 了 ! 不 要 对 结果 有 太 多 
期 望 ， 这 对 于 你 的 数据 探索 过 程 来 说 很 重要 。 你 的 问题 可 能 对 于 某 个 答案 来 说 大 宽泛 ， 也 
可 能 没有 结论 性 的 答案 。 回 想 一 下 你 在 第 一 节 自 然 科 学 课程 中 学 到 的 有 关 假设 和 结论 的 知 
识 。 最 好 用 同样 的 方法 来 进行 数据 探索 ， 并 且 要 理解 ， 在 数据 分 析 中 你 可 能 不 会 得 到 一 个 
清晰 的 结论 。 

尽管 如 此 ， 只 是 去 探索 数据 并 发 现 数据 中 没有 趋势 或 者 趋势 不 符合 预期 ， 这 就 很 有 趣 。 如 
有 果 一 切 都 如 我 们 所 愿 ， 数 据 处 理会 变 得 有 些 无 聊 。 我 们 已 学 会 少 一 点 期 待 ， 多 一 点 探索 。 


当 你 开始 分 析 和 探索 数据 时 ， 可 能 会 意识 到 需要 更 多 的 或 不 同 种 类 的 数据 。 
在 你 更 深入 地 定义 想 要 回答 的 问题 ， 并 检验 数据 告诉 你 什么 的 过 程 中 ， 这 是 
很 常见 的 一 种 情况 ， 你 需要 接受 。 












































现在 也 非常 适合 回顾 一 下 你 最 初 发 现 数据 集 时 所 提出 的 问题 。 你 想 知道 什么 ? 是 否 还 有 其 
他 相关 的 问题 有 助 于 你 的 探索 ? 这 些 问题 可 能 会 指出 方向 ， 告 诉 你 在 哪 能 找到 故事 。 即 使 
没有 ， 这 些 问题 也 会 指引 你 发 现 另外 一 些 有 趣 的 问题 。 即 使 你 不 能 回答 最 初 的 问题 ， 也 能 
够 对 话题 有 更 深入 的 了 解 ， 并 发 现 新 的 问题 去 探索 。 

在 这 一 章 ， 我 们 会 学 习 一 些 新 的 用 于 数据 探索 和 分 析 的 Python 库 ， 并 且 继 续 应 用 我 们 在 前 
两 章 学 到 的 清洗 数据 的 知识 。 我 们 会 学 习 如 何 合并 数据 集 ， 探 索 数 据 ， 得 到 有 关 数 据 集中 
关系 的 统计 学 结论 。 


9.1 探索 数据 


在 前 两 章 你 已 经 学 习 了 解析 和 清洗 数据 ， 想 必 已 经 很 熟悉 用 Python 来 与 数据 交互 了 。 现 在 
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我 们 要 使 用 Python 更 加 深入 地 探索 数据 。 
首先 我 们 要 安装 将 用 到 的 Python 库 agate (http://agate.readthedocs.org)， 它 可 以 帮助 我 
们 发 现 数据 的 一 些 基本 特征 。agate 是 一 个 数据 分 析 库 ， 由 Christopher Groskopf (https:// 
github.com/onyxfish) 编写 。Christopher 是 一 位 拥有 高 超 技术 水 平 的 数据 记者 和 Python 开 
发 者 ， 而 agate 库 会 帮助 我 们 了 解数 据 。 使 用 pip 安装 这 个 库 : 


pip install agate 











这 一 章 中 的 代码 与 agate 1.2.0 版 本 兼容 。 因 为 agate 是 一 个 相对 较 新 的 
Python 库 ， 所 以 随 着 库 的 成 熟 ， 其 中 的 一 些 功能 是 有 可 能 发 生 改 变 的 。 为 确 
保安 装 的 是 指定 版 本 的 库 ， 你 可 以 使 用 pip 设置 版 本 。 对 本 书 来 说 ， 你 可 以 
使 用 : pip install agate==1.2.0 来 安装 agate。 我 们 同样 推荐 你 测试 最 新 的 
版 本 ， 并 随时 了 解 书 中 用 到 的 库 的 最 新 代码 变化 。 


我 们 想 要 探索 agate 库 的 一 些 特性 。 为 了 达到 这 个 目的 ， 我 们 将 会 使 用 从 UNICEF 年 报 得 
到 的 关于 童工 雇用 的 数据 (http://data.unicef.org/child-protection/child-labour.html) 。 


9.1.1 导入 数据 

首先 ， 来 看 一 下 我 们 的 第 一 个 数据 集 一 一 UNICEF 的 童工 汇总 数据 。 我 们 下 载 的 数据 是 一 
个 Excel 文件 ， 包 含 全 世界 的 童工 雇用 率 列表 。 我 们 可 以 使 用 学 到 的 关于 Excel 的 知识 以 
及 从 第 4 章 和 第 7 章 学 到 的 数据 清洗 技术 ， 将 原始 数据 转化 为 agate 库 所 接受 的 格式 。 


在 处 理 Excel 表单 时 ， 我 们 推荐 你 用 喜欢 的 Excel 查看 器 打开 表单 文件 。 这 
样 我 们 更 容易 比 对 Python“ 看 到 ”的 结果 和 我 们 从 表单 中 看 到 的 结果 ， 这 有 
助 于 数据 的 查找 和 提取 。 


















































首先 ， 我 们 导入 可 能 会 用 到 的 Python 库 ， 并 且 将 Excel 文件 加 载 到 xLrd 中 。 


import xlrd 
import agate 


workbook = xlrd.open_workbook('unicef_oct_2014.xls') 
workbook.nsheets 
workbook. sheet_names() 
现在 将 Excel 中 的 数据 加 载 到 变量 workbook 中 了 。 这 个 工作 表 包 含 一 个 表单 ， 叫 作 Child labour。 


如 果 你 在 IPython 终端 中 运行 上 面 这 段 代 码 (我 们 推荐 使 用 IPython， 因 为 你 会 看 到 更 多 的 
输出 ) ， 应 该 看 到 下 面 的 输出 : 


In [6]: workbook.nsheets 
Out[6]: 1 











In [7]: workbook.sheet_names() 
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Out[7]: [u'Child Labour '] 
选择 这 个 表单 ， 这 样 你 可 以 将 其 导入 agate 库 。 根 据 agate 库 的 文档 (http://agate. 
readthedocs.io/en/latest/tutorial.html) ，agate 库 可 以 使 用 一 个 标题 列表 、 一 个 各 数据 列 的 类 
型 列表 和 一 个 数据 读 取 器 (或 可 迭代 的 数据 列表 ) 来 导入 数据 。 所以， 我 们 需要 数据 的 类 
型 ， 这 样 才 可 以 顺利 地 从 表单 中 导入 数据 到 agate 库 。 


sheet = workbook.sheets()[0] 











sheet .nrows © 
sheet .row_vaLues(0) @ 


for r in range(sheet.nrows ) : 
print r, sheet.row(r) © 


@ nrows 标识 表单 中 共有 多 少 列 。 

@ row_values 允许 选取 一 行 数据 ， 并 且 展 示 这 行 的 值 。 上 面 这 种 情况 下 ,会 展示 表单 数据 
的 标题 ， 因 为 标题 是 Excel 文件 的 第 一 行 。 

@@ 通过 使 用 range 和 for 遍历 每 一 行 数据 ， 我 们 可 以 像 Python 一 样 查看 每 一 行 数据 。 表 单 
的 row 方法 会 返回 数据 的 一 些 信息 和 每 行 数据 的 类 型 。 

我 们 从 第 3 章 了 解 到 ，csv 库 接 受 一 个 打开 的 文件 ， 并 且 将 其 转化 为 一 个 选 代 器 

(iterator) 。 和 迭 代 器 是 一 个 可 以 欠 代 或 遍历 的 对 象 ， 每 一 次 返回 其 对 应 的 值 。 在 代码 中 ， 友 

代 器 在 展开 数据 方面 比 列表 更 高 效 ， 拥 有 速度 和 性 能 的 优势 。 


因为 我 们 正在 处 理 的 数据 集 很 小 ， 所 以 可 以 创建 一 个 列表 ， 用 其 代替 迭代 器 
来 传 参 。 大 多 数 需要 迭代 器 的 库 可 以 处 理 任何 可 迭代 对 象 (如 列表 )。 通 过 
这 种 方式 ， 我 们 依然 遵从 xldr 和 agate 所 期 待 的 方式 。 










































































首先 ， 让 我 们 获取 每 一 列 的 标题 。 在 之 前 的 输出 中 ， 我 们 可 以 看 到 标题 在 第 4 行 和 第 5 
行 。 可 以 使 用 zip 来 合并 标题 行 : 
title_rows = zip(sheet.row values(4), sheet.row_values(5)) 


title_rows 


现在 可 以 看 到 变量 title_rows 的 值 为 : 


[('', u'Countries and areas'), 
(uyu'Total (%)', ''), 

CB 0) 

(u'Sex (%)', u'Male'), 

('', U'Female'), 

(u'Place of residence (%)', u'Urban'), 
Cs WRural' 5 

(uy'Household wealth quintile (%)', u'Poorest'), 
('', Uu'Second'), 

('', u'Middle'), 

('', u'Fourth'), 

('', U'Richest'), 
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(u'Reference Year', ''), 
(u'Data Source'’, '')] 


同时 使 用 两 行 信息 (第 4 行 和 第 5 行 )， 会 保留 如 有 果 我 们 仅 使 用 其 中 一 行 信息 丢失 的 那 部 分 
信息 。 这 是 个 很 好 的 选择 ， 我 们 还 可 以 再 花 点 时 间 来 改进 这 一 点 ， 但 是 ， 对 于 最 初 的 数据 
探索 来 说 ， 这 是 一 个 很 好 的 开始 。 标 题 数据 当前 是 一 个 元 组 列表 。 我 们 知道 agate 库 希 望 得 
到 一 个 元 组 列表 ， 其 中 第 一 个 值 为 标题 的 字符 串 ， 这 样 我 们 需要 将 标题 转换 成 字符 串 列 表 。 


titles = [t[0] + ' ' + t[1] for t in titLe_rows] 



































print titles 
titles = [t.strip() for t in titles] 


在 这 段 代 码 里 面 ， 我 们 使 用 了 两 个 列表 生成 式 。 在 第 一 个 中 ， 我 们 把 title_rows 列表 传 
入 ， 它 是 一 个 元 组 列表 。 在 这 些 元 组 中 ， 存 有 Excel 文件 中 标题 行 的 内 容 字 符 串 。 

第 一 个 列表 生成 式 使 用 了 元 组 的 两 个 部 分 (通过 元 组 索引 ) 来 拼接 一 个 字符 串 。 我 们 将 每 
一 个 元 组 的 值 合并 在 一 起 ， 出 于 可 读 性 的 考虑 ， 使 用 ' “做 间隔 。 现 在 我 们 的 标题 列表 只 
由 字符 串 组 成 一 一 原来 的 元 组 不 见 了 ! 我 们 使 得 标题 变 得 有 一 些 复杂 ， 因 为 并 不 是 每 一 个 
元 组 都 有 两 个 值 。 通 过 添加 空格 分 隔 ， 我 们 创建 了 一 些 以 空格 为 开始 的 标题 ， 像 "Femate ' 。 
为 了 删除 起 始 位 置 的 空格 ， 在 第 二 个 迭代 器 中 ， 我 们 使 用 strip 字符 串 方 法 ， 这 个 方法 会 
移 除 字符 串 最 开始 和 最 后 的 空格 。 现 在 标题 变量 有 了 整洁 的 字符 串 列表 ， 能 够 很 好 地 在 
agate 库 中 使 用 。 


标题 已 经 准备 完毕 ， 现 在 需要 从 Excel 文件 中 选择 要 使 用 的 数据 行 。 我 们 的 表单 有 国家 和 
大 洲 的 数据 ， 让 我 们 首先 聚焦 于 国家 的 数据 。 我 们 想 要 避免 意外 地 将 不 同类 别 的 数据 混合 
在 一 起 。 通 过 之 前 的 代码 输出 ， 我 们 知道 第 6 行 至 第 114 行 是 我 们 想 要 使 用 的 。 我 们 会 使 
用 row_values 方法 来 返回 xLrd 表单 对 象 中 这 些 行 中 的 值 。 


country_rows = [sheet.row values(r) for r in range(6, 114)] 


现在 我 们 有 了 标题 列表 和 数据 列表 ， 所 以 只 需要 定义 导入 agate 库 中 的 类 型 。 根 据 关 于 定 
义 列 的 文档 (http://agate.readthedocs.org/en/latest/tutorial.html#defining-the-columns)， 我 们 
有 文本 、 布 尔 、 数 字 和 日 期 4 种 列 类 型 ， 同 时 库 作 者 建议 ， 如 果 数 据 的 类 型 不 确定 ， 就 使 
用 文本 类 型 。 这 里 同样 有 内 置 的 TypeTester (http://agate.readthedocs.io/en/latest/api/data_ 
types.html) ， 可 以 用 其 猜测 数据 类 型 。 首 先 ， 使 用 一 些 xtrd 的 内 置 国 数 来 定义 列 : 


from xlrd.sheet import ctype_text 
import agate 



































text_type = agate.Text() 
number_type = agate.Number() 
boolean_type = agate.Boolean() 
date_type = agate.Date() 


example_row = sheet.row(6) 


print example_row © 
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print exampLe_row[0].ctype @ 
print example_row[0].value 


print ctype_text © 


@ 通过 打印 来 检查 这 一 行 的 值 ， 我 们 看 到 有 完好 的 数据 。xLrd 会 检查 所 有 的 数据 ， 保 证 不 
会 有 空 行 数 据 的 存在 。 
@ 这 两 行 代码 中 ， 我 们 调用 ctype 和 value 属性 来 得 到 数据 行 中 每 一 个 元 素 的 类 型 和 值 属性 。 











当 使 用 IPython 时 ， 通 过 创建 一 个 你 关心 的 变量 的 新 对 象 ， 在 末尾 添加 句号 ， 
并 敲 击 Tab 键 ， 就 可 以 轻松 地 找到 新 的 方法 和 属性 。 这 会 展开 一 个 属性 和 方 
法 的 列表 ， 以 便于 你 更 深入 地 探索 。 














@ 使 用 xlrd 库 中 的 ctype_text 对 象 ， 我 们 可 以 匹配 ctype 方法 返回 的 整数 对 象 ， 映 射 它 
们 到 可 阅读 的 字符 串 。 这 可 以 代替 手动 映射 类 型 。 

这 几 行 代码 让 我 们 更 好 地 了 解 了 可 用 于 定义 类 型 的 工具 。ctype 方法 和 ctype_text 对 象 可 

以 用 来 排序 和 展示 给 定 样 例 数据 行 中 的 数据 类 型 。 











虽然 看 起 来 我 们 为 了 用 这 种 方式 创建 列表 做 了 好 多 工作 ， 但 这 些 工作 提供 了 
可 复 用 的 能 力 ， 这 会 在 之 后 节省 你 的 时 间 。 重 用 这 些 代码 片段 会 在 之 后 为 你 
节省 大 量 宝贵 时 间 ， 同 时 也 是 编写 你 自己 的 代码 中 非常 有 趣 的 一 面 。 




















现在 我 们 知道 哪些 函数 可 以 用 来 探索 Excel 列 的 数据 类 型 ， 所 以 需要 尝试 为 agate 库 创 建 
一 个 类 型 列表 。 我 们 需要 遍历 数据 行 ， 使 用 ctype 来 映射 列 类 型 : 


types = [] 


for v in example_row: 

value type = ctype_text[v.ctype] © 

if value_type == 'text': @ 
types.append(text_type) 

elif value_type == 'Number': 
types.append(number_type) 

elif value_ type == 'xldate': 
types.append(date_type) 

else: 
types.append(text_type) © 


@ 映射 我 们 在 探索 每 一 行 数据 的 ctype 属性 时 找到 的 整数 值 到 ctype_text 字典 中 ， 使 它们 
变 得 可 读 。 现 在 value_type 中 保存 了 数据 的 列 类 型 字符 串 (也 就 是 文本 、 数 字 等 )。 

@ 使 用 if 和 elif 语句 以 及 == 操作 符 将 value_type 和 agate 列 类 型 匹配 。 之 后 ， 代 码 将 
相应 的 类 型 追加 到 列表 中 ， 继 续 下 一 个 列 类 型 。 

人 @ 正如 库 文档 中 建议 的 那样 ， 如 果 这 里 没有 类 型 匹配 上 ， 我 们 将 文本 列 类 型 追加 到 列表 中 。 

现在 我 们 构建 了 一 个 函数 来 接受 一 个 空 列表 ,遍历 所 有 的 列 ， 并 且 创 建 一 个 包含 数据 集中 

所 有 列 类 型 的 列表 。 在 运行 代码 之 后 ， 我 们 就 有 了 需要 的 类 型 、 标 题 和 数据 列表 。 可 以 将 

标题 和 类 型 打包 在 一 起 ， 通 过 运行 下 面 这 行 代 码 ， 将 结果 导入 到 agate 表 中 : 
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table = agate.Table(country_rows, titles, types) 


当 你 运行 这 段 代 码 时 ， 会 看 到 CastError， 同 时 还 有 Can not convert value “-” to 
Decimal for NumberColumn 这 行 错误 信息 。 
正 像 第 7 章 和 第 8 章 提 到 的 那样 ， 学 习 如 何 清洗 数据 是 数据 处 理 过 程 中 必要 的 一 部 分 。 编 
写 文档 完备 的 代码 会 让 你 在 未 来 节省 时 间 。 通 过 阅读 这 些 错误 信息 ， 我 们 意识 到 有 一 些 坏 
数据 隐藏 在 某 个 数据 列 中 。 在 表单 中 的 一 些 地 方 ， 数 据 中 出 现 了 “'-'， 而 不 是 "'， 这 会 被 
当 作 空 值 来 处 理 。 我 们 可 以 编写 一 个 函数 来 处 理 这 个 问题 。 

def remove_bad_chars(val): © 









































if val == '-': © 
return None © 
return val 


cleaned_rows = [] 


for row in country_rows: 
cleaned_row = [remove _ bad _chars(rv) for rv in row] @ 
cleaned_rows.append(cleaned_row) @ 


@ 定义 函数 来 去 除 坏 字 符 (例如 整数 列 中 的 '-' 字符 )。 

@ 如 果 值 与 '-' 相等 ， 选 择 这 个 值 准备 替换 。 

@ 如 果 值 为 ， 返 回 None。 

@ 遍历 country_rows 来 创建 一 个 新 的 清洗 后 的 列表 ， 包 含 合法 的 数据 。 
@ 创建 一 个 cleaned_rows 列表 包含 清洗 后 的 数据 (通过 append 方法 ) 。 





当 我 们 编写 函数 来 修改 值 的 时 候 ， 在 主 逻 辑 之 外 保证 一 个 默认 的 返回 ( 像 示 
例 中 那样 )， 以 确保 永远 返回 一 个 值 。 








使 用 这 个 函数 ， 我 们 可 以 确保 整数 列 拥有 None 类 型 ， 而 不 是 '-'。None 告诉 Python， 这 是 
一 个 空 数据 ， 在 与 其 他 数字 比较 分 析 时 忽略 这 个 数据 。 


因为 想 要 复 用 清洗 和 改变 类 型 的 代码 ， 所 以 我 们 把 一 些 已 经 编 好 的 代码 转变 成 更 加 抽象 和 
通用 的 辅助 函数 。 创 建 最 后 的 清洗 函数 时 ， 我 们 创建 了 一 个 新 的 列表 ， 人 遍历 所 有 行 的 数 
据 ， 对 每 一 行 数据 做 了 清洗 ， 并 为 agate 表 返 回 了 一 个 新 的 数据 列表 。 让 我 们 看 一 下 ， 是 
否 可 以 使 用 这 些 概念 并 抽象 它们 。 
def get_new_array(old_array, function to_clean): © 
new_arr = [] 
for row in old_array: 
cleaned_row = [function to_clean(rv) for rv in row] 
new_arr.append(cleaned_row) 
return new_arr © 


cleaned_rows = get_new_array(country_rows, remove_bad_chars) © 


@ 定义 函数 ， 让 上 其 接受 两 个 参数 ， 老 的 数据 数组 和 清洗 数据 的 函数 。 
@ 用 更 抽象 的 名 称 复 用 我 们 的 代码 。 在 函数 的 最 后 ， 返 回 新 的 清洗 后 的 数组 。 
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人 @ 使 用 remove_bad_chars 国 数 作为 参数 调用 这 个 国 数 ， 保 存 清 洗 后 的 结果 到 cleaned_rows。 
现在 尝试 重新 运行 代码 来 创建 一 个 表 
In [10]: table = agate.Table(cleaned_rows, titles, types) 


In [11]: table 

Out[11]: <agate.table.Table at 0x7f9adc489990> 
鸣 啊 ! 我 们 有 了 一 个 table 变量 ,保存 着 一 个 Table 对 象 。 现 在 可 以 用 agate 库 的 函数 查 
看 数据 了 。 如 果 你 急切 地 想 知道 表 看 起 来 是 什么 样 的 ， 使 用 print_table 方法 快速 地 查看 
一 下 表 中 的 内 容 : 


table.print_table(max_columns=7) 





























如 果 至 此 你 一 直 使 用 IPython， 并 且 想 确保 可 以 在 下 一 个 会 话 中 继续 使 用 这 
些 变量 ， 就 使 用 %store (https://ipython.org/ipython-doc/3/config/extensions/ 
storemagic.html) 命令 。 如 果 和 希望 保存 table 变量 ， 我 们 可 以 简单 地 输入 
%store table。 在 我 们 的 下 一 个 IPython 会 话 中 ， 可 以 通过 输入 %store -r 恢 
复 table 变量 。 在 分 析 数 据 的 过 程 中 ， 这 对 “保存 ”你 的 工作 非常 有 用 。 


























下 面 ， 我 们 会 深入 查看 表 数 据 ， 并 使 用 一 些 内 置 的 研究 工具 。 


9.1.2 ”探索 表 函 数 


agate 库 提 供 了 许多 函数 来 探索 数据 。 首 先 ， 我们 尝试 一 些 排序 方法 (http://agate. 
readthedocs.org/en/latest/tutorial.html?#sorting-and-slicing)。 让 我 们 尝试 为 表 排序 。 通 过 对 
童工 雇用 率 的 总 百分比 的 列 排序 ， 我 们 可 以 看 到 最 过 分 的 国家 。 我 们 会 使 用 Limit (http:/ 
agate.readthedocs.io/en/latest/api/table.html) 函数 来 查看 雇用 率 最 高 的 10 个 国家 。 





table.column_nanes ©O@ 
most_egregious = table.order_by('Total (%)', reverse=True).limit(10) @ 


for r in most egregious.rows: © 
print r 


@ 检查 列 名 称 ， 这 样 我 们 知道 要 使 用 的 是 什么 列 。 

@ 链 式 调用 order_by 和 Limit 方法 来 创建 新 的 表 。 因 为 order_by 会 按 从 最 小 到 最 大 来 排 
序 ， 所 以 我 们 使 用 reverse 参数 来 让 其 从 大 到 小 排序 。 

@ 使 用 新 表 的 rows 属性 ， 遍 历 童工 雇用 情况 最 糟糕 的 10 个 国家 。 


运行 这 段 代 码 会 返回 童工 雇用 率 最 高 的 10 个 国家 。 在 儿童 工作 百分比 方面 ， 非 洲 国家 大 
量 出 现在 列表 前 列 。 这 是 我 们 第 一 个 有 趣 的 发 现 ! 让 我 们 继续 探索 。 为 了 探究 哪些 国家 的 
女童 雇用 率 最 高 ， 我 们 可 以 再 一 次 使 用 order_by 和 Limit 国 数 。 这 一 次 ， 我 们 将 它们 应 用 
到 女童 百分比 数据 列 上 : 


most_females = table.order_by('Female', reverse=True).limit(10) 
for r in most_females.rows: 
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print '{}: {}%'.format(r['Countries and areas'], r['Female']) 





当 第 一 次 探索 数据 时 ， 使 用 Python 的 format 函数 会 让 输出 更 易 阅 读 ， 而 不 
是 简单 地 输出 每 一 行 数据 。 这 意味 着 你 可 以 专注 于 数据 本 身 ， 而 不 是 费劲 去 
阅读 它们 。 
我 们 看 到 了 数据 中 有 一 些 None 的 百分比 数据 。 这 不 是 我 们 想 要 的 ! 我们 可 以 使 用 agate 表 
的 where 方法 清除 这 些 数 据 ， 像 下 面 的 代码 一 样 。 这 一 方法 类 似 于 SQL 中 的 WHERE 语句 ， 
或 者 Python 中 的 if 语句 。where 创建 另外 一 个 只 包含 符合 条 件 的 数据 行 的 表 。 


female_data = table.where(lambda r: r['Female'] is not None) 
most_females = female_data.order_by('Female', reverse=True).limit(10) 





for r in most_females.rows: 
print '{}: {}%'.format(r['Countries and areas'], r['Female']) 


首先 创建 female_data 表 ， 其 中 使 用 了 Python 的 Lambda 函数 来 保证 每 一 行 数据 有 Female 
列 存在 。where 函数 接受 lambda 函数 返回 的 布尔 值 ， 并 且 只 在 值 为 真 时 将 数据 分 离 出 来 。 
将 只 含有 女性 童工 麻 用 数据 的 行 分 离 出 来 后 ， 我 们 使 用 相同 的 排序 、 截 断 和 格式 化 技巧 ， 
来 查看 女童 雇用 率 非常 高 的 国家 列表 。 





























Lambda 


Python 的 lambda 函数 允许 我 们 编写 一 个 单行 函数 ， 并 且 作 为 一 个 参数 进行 传递 。 这 对 
于 我 们 在 这 一 节 探索 中 所 碰 到 的 情况 来 说 十 分 有 用 ， 在 这 里 ， 我 们 希望 通过 一 个 简单 
的 函数 传递 一 个 值 。 

在 编写 lambda 也 数 时 ， 像 上 面 例 子 中 那样 ， 我 们 首先 编写 lambda 和 我 们 会 传递 到 函 
数 中 的 代表 参数 的 变量 。 在 这 个 例子 中 ， 变 量 是 r。 在 变量 名 称 之 后 ， 我 们 编写 一 个 
冒号 (:)。 这 和 我 们 用 def 定义 函数 ， 并 且 用 冒号 终结 一 行 是 相同 的 。 

在 冒号 之 后 给 Python 我 们 想 要 Lambda 池 数 计算 的 逻辑 ， 这 个 池 数 会 返回 一 个 值 。 在 
这 个 例子 中 ， 返 回 一 个 布尔 值 ， 告 诉 我 们 每 行 中 Female 这 个 值 是 否 非 None。 不 一 定 
要 返回 布尔 值 ，Lambda 可 以 返回 任何 类 型 的 值 〈( 整 型 、 字 符 事 、 列 表 ， 等 等 ) 。 

同样 可 以 在 lambda 函数 中 使 用 if else 语 铝 ， 基 于 简单 的 逻辑 返回 一 个 值 。 在 Python 
解释 器 中 尝试 下 面 的 代码 : 


(Lambda x: 'Positive' if x >= 1 else 'Zero or Negative')(0) ©@ 
(Lambda x: 'Positive' if x >= 1 else 'Zero or Negative')(4) 


@ 将 lambda 函数 放 在 第 一 对 括号 中 ， 将 要 使 用 的 变量 作为 x 放 在 第 二 对 括号 中 。 这 个 
Lambda 孔 数 检查 参数 是 否 等 于 或 大 于 1。 如果 是 ， 返 回 Positive， 否则 返回 Zero 
or Negative, 


Lambda 函数 极为 有 用 ， 但 是 也 会 使 代码 更 加 难以 阅读 。 要 确保 遵守 好 的 编程 规则 ， 并 
且 只 在 清晰 明确 的 情形 下 使 用 它们 。 














A 
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在 检视 数据 的 时 候 ， 我 们 发 现 很 多 国家 既 拥 有 高 童工 雇用 率 又 拥有 高 女童 雇用 率 。 我 们 看 

过 一 些 过 滤 和 排序 的 方法 ， 再 来 看 一 些 agate 库 内 置 的 统计 学 函数 。 假 如 我 们 想 要 找到 城市 

童工 雇用 率 的 平均 百分比 。 为 此 ， 我 们 来 计算 Place of residence (%) Urban 这 列 数据 的 均值 : 
tabLe.aggregate(agate.Mean('PLace of residence (%) Urban ')) 

这 段 代 码 调用 了 表 的 aggregate 方法 ， 使 用 agate.Mean() 统计 学 方法 和 列 名 称 来 返回 列 的 

数学 均值 。 你 可 以 通过 agate 文档 (http://agate.readthedocs.io/en/latest/cookbook/statistics. 

html#statistics) 来 查看 其 他 可 以 在 列 上 使 用 的 聚合 函数 。 

当 运 行 这 段 代 码 时 ， 会 收 到 NuLLComputationNarning 异常 。 从 这 个 异常 的 名 字 和 过 往 经 验 

中 ， 你 可 能 猜 到 了 这 个 异常 的 意义 ， 这 个 异常 意味 着 Place of residence (%) Urban 列 中 可 能 

有 一 些 空 数据 。 我 们 可 以 再 次 使 用 where 方法 来 聚焦 于 城市 平均 值 : 


has_por = table.where(lambda r: r['Place of residence (%) Urban'] is not None) 














has_por .aggregate(agate.Mean( 'Place of residence (%) Urban')) 
你 会 发 现 得 到 了 相同 的 值 ， 这 是 因为 agate 在 背后 做 了 相同 的 事情 (去 除 空 列 ， 计 算 剩 下 
数据 的 平均 值 )。 让 我 们 来 看 看 对 于 居住 信息 表 还 可 以 做 什么 数学 计算 。 可 以 看 一 下 place 
of residence 列 的 最 小 值 (Mn)、 最 大 值 (Max) 和 均值 (Mean) 。 
假如 我 们 想 要 找到 每 行 数 据 中 农村 童工 雇用 率 大 于 50% 的 数据 。agate 库 有 一 个 find 方 
法 ,使 用 条 件 语 句 来 找到 第 一 个 匹配 的 数据 。 让 我 们 尝试 用 代码 解决 问题 : 

first match = has_por.find(Lambda x: x['Rural'] > 50) 


first_match['Countries and areas'] 


返回 的 那 行 数据 就 是 第 一 个 匹配 到 的 数据 ， 就 像 在 普通 字典 中 一 样 ， 我 们 可 以 看 到 数据 的 
名 称 。 在 agate 库 的 第 一 次 探索 之 旅 中 ， 最 后 一 步 ， 我 们 将 会 使 用 compute 方法 和 agate. 
Rand() 统计 学 方法 (http://agate.readthedocs.io/en/latest/cookbook/rank.html) ， 基 于 另 一 列 创 
建 一 个 新 的 排序 的 列 。 





当 比 较 数据 集 的 时 候 ， 基 于 一 列 数据 对 整体 数据 进行 排序 是 一 个 很 好 的 彻 查 
方式 。 


为 了 查看 童工 雇用 率 最 高 国家 的 排名 ， 我 们 可 以 使 用 Total (%) 列 数 据 进行 排序 。 在 将 这 个 
数据 集 和 其 他 数据 集合 并 之 前 ， 我 们 想 要 一 个 清晰 可 见 的 排序 后 列 数据 ， 来 比较 合并 后 的 
数据 。 因 为 我 们 想 要 雇用 率 更 高 的 国家 出 现在 列表 前 面 ， 所 以 需要 使 用 参数 reverse=True 
逆序 排序 (http://agate.readthedocs.io/en/latest/cookbook/rank.html#rank-descending) 。 




















ranked = table.compute([('Total Child Labor Rank ' ， 
agate.Rank('TotaL (%)', reverse=True)), ]) 


for row in ranked.order_by('Total (%)', reverse=True).limit(20).rows: 
print row['Total (%)'], row['Total Child Labor Rank'] 


如 果 想 用 另 一 种 方式 来 计算 排名 ， 可 以 用 逆 百 分 比 创建 一 列 数据 。 相 对 于 使 用 每 个 国家 
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雇用 童工 的 百分比 数据 ， 我 们 可 以 使 用 普通 儿童 的 占 比 来 进行 计算 。 这 会 让 我 们 在 使 用 
agate.Rank() 方法 时 ， 不 需要 reverse 参数 : 


def reverse_percent(row): © 
return 100 - row[ 'TotaL (%)'] 


ranked = table.compute([('Children not working (%) ， 
agate.Formula(number_type, reverse_percent)), 


]) 名 


ranked = ranked.compute([('Total Child Labor Rank ' ， 
agate.Rank('Children not working (%)')), 
)© 


for row in ranked.order_by('Total (%)', reverse=True).limit(20).rows: 
print row['Total (%)'], row['Total Child Labor Rank'] 


@ 创建 一 个 新 的 函数 来 计算 并 返回 给 定数 据 的 逆 百 分 比 。 

@ 使 用 agate 库 的 compute 方法 ， 传 递 一 个 列表 作为 参数 ， 并 返回 新 的 数据 列 。 列 表 中 的 
每 一 个 元 素 必 须 是 元 组 对 象 ， 而 元 组 的 第 一 个 元 素 包含 列 名 称 ， 第 二 个 元 素 用 来 计算 新 
的 列 。 在 这 里 ， 我 们 使 用 Formula 类 ， 其 同样 需要 一 个 agate 类 型 ， 同 函数 一 起 ， 创 建 
一 个 列表 值 。 

@@ 用 Children not working (%) 列 的 数据 来 创建 有 适当 排序 的 Total Child Labor Rank 列 。 


可 以 看 到 ，compute 是 一 个 非常 好 用 的 工具 ， 它 基于 一 个 数据 列 (或 多 个 数据 列 ) 来 计算 一 个 
新 的 数据 列 。 现 在 我 们 有 了 排名 ， 让 我 们 看 看 是 否 能 够 合并 一 些 新 数据 集 到 童工 数据 集 里 。 


9.1.3 ”联结 多 个 数据 集 


在 研究 可 以 和 童工 数据 联结 的 数据 集 时 ， 我 们 碰 到 了 很 多 无 果 而 终 的 情况 。 我 们 尝试 使 用 
世界 银行 数据 (http://data.worldbank.org/) 来 比较 农业 和 服务 经 济 数据 ， 但 是 并 没有 找到 
任何 好 的 联系 。 我 们 进行 了 更 多 的 阅读 ， 发 现 有 些 人 把 童工 和 HIV 感染 率 联系 了 起 来 。 我 
们 观察 了 这 些 数据 ， 但 是 并 没有 找到 明显 的 总 体 趋势 。 顺 着 这 个 思路 ， 我 们 想 知道 犯罪 比 
率 对 童工 雇用 率 是 否 有 影响 但 是 这 一 次 ， 我 们 依然 没有 发 现任 何 关联 。" 

经 历 这 么 多 失败 之 后 ， 在 仔细 考察 数据 和 阅读 一 些 文章 时 ， 一 个 特别 的 想法 突然 出 现 。 政 
府 腐 败 (或 政府 被 认为 有 可 能 存在 腐败 ) 会 不 会 影响 童工 雇用 率 ? 当 我 们 阅读 关于 童工 雇 
用 的 资料 时 ， 经 常 发 现 与 反 政 府 武装 、 学 校 和 工业 相关 。 如 果 大 众 不 相信 政府 ， 并 且 必 
须 创 建 一 些 未 经 政府 批准 的 组 织 ， 这 些 都 可 能 是 招募 这 些 希 望 工作 和 帮忙 的 人 (其 至 是 儿 
童 ) 的 原因 之 一 。 


我 们 锁定 了 国际 公开 腐败 感 指数 (Transparency International s Corruption Perceptions Index) 
数据 集 ， 并 决定 与 UNICEF 童工 数据 做 比 对 。 首 先 ， 我 们 需要 把 数据 导入 到 Python 中 。 
下 面 代 码 交 代 了 如 何 导入 数据 ; 


cpi_workbook = xLrd.open_workbook('corruption_perception_index.xLs') 


















































注 1: 查看 本 书 的 仓库 ， 可 以 看 到 其 中 的 一 些 探索 。 
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cpi_sheet = cpi workbook.sheets()[0] 


for r in range(cpi_sheet.nrows ) : 
print r, cpi_sheet.row_values(r) 


cpi_title rows = zip(cpi_sheet.row values(1), cpi_sheet.row_values(2)) 
cpi titles = [t[0] + ' ' + t[1] for t in cpi title _rows] 
cpi titles = [t.strip() for t in cpi_titles] 


cpi_rows = [cpi_sheet.row values(r) for r in range(3, cpi_sheet.nrows)] 
Cpi_types = get types(cpi_sheet.row(3)) 


我 们 再 一 次 使 用 xlrd 来 导入 Excel 数据 ， 并 且 复 用 在 之 前 编写 的 解析 标题 和 为 agate 库 准 
备 数据 的 代码 。 但 是 在 你 运行 最 后 一 行 代码 (这 里 调用 了 一 个 新 的 函数 ，get_types) 之 
前 ， 我 们 需要 编写 一 些 代 码 来 帮助 我 们 定义 类 型 和 创建 表 : 


def get_types(example_row): 
types = [] 
for v in example_row: 
value type = ctype_text[v.ctypel] 
if value type == 'text': 
types.append(text_type) 
elif value type == 'Nnumber': 
types.append(number_type) 
elif value_ type == 'xldate': 
types.append(date_type) 
else: 
types.append(text_type) 
return types 























def get_ table(new_arr, types, titles): 
try: 
table = agate.Table(new_arr, titles, types) 
return table 
except Exception as e: 
print e 


我 们 使 用 之 前 编写 的 相同 代码 来 创建 函数 get_types， 它 接受 一 行 数据 ， 为 agate 库 输 出 一 
个 类 型 列表 。 我 们 同样 编写 了 get_table 函数 ， 函 数 中 使 用 了 Python 内 置 的 异常 处 理 。 











异常 处 理 
整 本 书 中 ,我 们 碰 到 了 很 多 错误 ， 并 在 它们 发 生 时 进行 了 处 理 。 现 在 我 们 有 了 更 多 经 
验 ， 可 以 开始 预见 潜在 的 错误 ， 并 做 出 适当 的 决定 来 处 理 它们 。 
代码 要 明确 (特别 是 异常 )， 这 样 就 能 够 在 代码 中 说 明 你 预期 的 错误 。 这 还 会 确保 没有 
预见 到 的 错误 会 抛 出 异常 ， 进 入 错误 处 理 的 逻辑 ， 输 出 错误 日 志 ， 停止 程序 的 执行 。 
当 使 用 try 和 except 时 ,我 们 告诉 Python:“ 请 尝试 执行 这 段 程序 。 如 果 你 碰 到 了 错 


2 


误 ， 请 停止 执行 前 一 节 代 码 ， 执 行 except 代码 块 中 的 代码 。” 下 面 是 一 个 例子 : 
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try: 
1/90 
except Exception: 
print "oops! 
这 个 例子 使 用 的 是 通用 的 异常 类 型 。 通 常 我 们 希望 捕获 特定 类 型 的 异常 ， 即 认为 程序 
会 抛 出 的 异常 。 例 如 ， 如 果 代码 会 将 字符 囊 转 化 为 数字 ,我 们 就 知道 可 能 会 出 现 一 个 
ValueError 异常 。 可 以 像 下 面 这 段 代码 一 样 处 理 这 个 情况 : 
def str_to_int(x): 
try: © 
return int(x) @ 
except ValueError: © 


print 'Could not convert: %s'%x@ 
return x 


@ 开始 try 代码 块 ， 它 定义 了 代码 可 能 抛 出 异常 。try 关键 字 后 面 永远 跟着 一 个 冒号 ， 
并 且 单 独占 据 一 行 室 间 。 下 面 一 行 或 者 几 行 的 代码 ， 是 一 个 Python 的 try 代码 块 ， 
使 用 4 个 空格 缩 进 。 

@ 返回 传 和 参数 的 整数 形式 。 当 参数 是 类 似 于 1 或 者 4.5 的 值 时 ， 这 不 会 有 问题 。 如 
果 参 数 的 值 是 '-' 或 者 'foo' ， 这 会 抛 出 一 个 VaLueError 异常 。 

@ 开始 except 代码 块 ， 定 义 需要 捕获 的 异常 类 型 。 这 一 行 同样 使 用 一 个 冒号 作为 
结束 ， 指 定 我 们 想 要 捕获 一 个 ValueError 异常 (这 样 except 代码 块 会 只 捕获 
ValueError 异常 )。 这 个 代码 块 和 下 面 的 代码 只 在 try 语 揣 抛 出 了 这 行 代码 中 指定 
的 异常 时 才 会 执行 。 

@ 打印 一 行 信息 ， 告 诉 关于 异常 的 信息 。 如 果 需 要 更 新 或 改进 代码 ， 我 们 可 以 使 用 这 


段 信息 。 


一 般 来 说 ， 我 们 想 构建 简明 且 明 确 的 try 和 except 代码 块 。 这 会 让 代码 变 得 易 读 、 可 
预测 又 明确 。 











你 可 能 会 问 ， 为 什么 在 之 后 编写 的 get_table 函数 中 使 用 了 except Exception ? 这 是 个 好 
问题 ! 我 们 总 是 希望 明确 代码 ， 然 而 ， 当 你 第 一 次 用 一 个 库 或 数据 集 进行 实验 的 时 候 ， 可 
能 不 清楚 该 预防 哪些 错误 。 

为 了 编写 捕获 特定 异常 的 代码 ， 你 需要 预测 代码 可 能 会 抛 出 什么 类 型 的 异常 。 有 Python 内 
置 的 异常 类 型 ， 但 是 也 有 你 不 熟悉 的 特殊 库 异 常 。 如 果 你 正在 使 用 一 个 API 库 ， 作 者 可 能 会 
编写 一 个 RateExceededException 异常 ， 来 告诉 你 发 送 了 太 多 的 请 求 。 当 我 们 面 对 一 个 全 新 
的 库 时 ， 使 用 except Exception 代码 块 ， 打 印 或 记录 日 志 会 帮助 我 们 更 多 地 了 解 这 些 错误 。 


当 编写 except 代码 块 时 ， 可 以 通过 在 异常 后 面 添 加 代码 as e (在 冒号 前 ) 存 
储 异 常 到 一 个 变量 e。 因 为 打印 了 包含 异常 信息 的 变量 e， 所 以 可 以 了 解 到 更 
多 关于 触发 异常 的 信息 。 最 终 我 们 会 用 更 精确 的 异常 ， 或 者 一 系列 的 异常 代 
码 块 ， 重 新 编写 except Exception 块 ， 这 样 代 码 会 运行 得 更 顺利 和 可 预测 。 















































现在 我 们 有 了 一 个 get_table 函数 来 跟踪 agate 库 的 异常 ， 并 可 考虑 如 何 改进 代码 。 我 们 





A 
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可 以 使 用 新 函数 将 腐败 指数 数据 导入 到 Python 中 。 洽 试 运行 下 面 的 代码 : 


cpi_types = get_types(cpi_sheet.row(3)) 


cpi_table = get table(cpi rows, cpi types, cpi titles) 
大 功 告 成 ! 当 你 运行 这 段 代 码 ， 我 们 的 新 函数 get_table 会 让 你 看 到 抛 出 的 错误 ， 而 不 是 
国 数 完全 中 断 。 重 复 的 标题 可 能 意味 着 = 标题 列表 中 有 一 些 坏 标题 。 通 过 运行 下 面 的 代码 
来 查看 这 个 问题 : 

print pci_ titles 
可 以 看 到 有 两 个 Country Rank 列 。 通 过 在 电子 表格 中 查看 Excel 数据 ， 我 们 看 见 的 确 有 重 
复 的 列 。 为 了 方便 起 匈 ， 我 们 不 会 考虑 去 除 重复 数据 ， 但 是 的 确 需 要 处 理 重复 的 列 名 称 。 
我 们 需要 拼接 Duplicate 到 其 中 的 一 个 列 名 称 。 下 面 的 代码 展示 了 如 何 处 理 重复 列 名 称 : 


cpi_titles[0] = cpi_titLes[0] + ' DupLicate' 









































cpi_table = get table(cpi rows, cpi_ types, cpi titles) 


我 们 将 第 一 个 标题 禁 换 为 Country Rank Duplicate， 并 且 再 次 尝试 创建 新 的 pci_table: 


Cpi_rows = get_ new_array(cpi_rows, float_ to_str) 





cpi_table = get table(cpi rows, cpi_ types, cpi titles) 


现在 我 们 有 了 没有 任何 差错 的 cpi_table。 我 们 可 以 着 手 将 其 与 童工 数据 联结 起 来 ， 查 看 

它们 之 间 有 什么 样 的 联系 。 在 agate 库 中 ， 有 一 个 很 好 用 的 联结 表 的 方法 : join (http:/ 

agate.readthedocs.io/en/latest/api/table.html#agate.table.Table.join)。join 方法 模仿 SQL 中 的 

语义 ， 将 两 张 表 通过 一 个 共享 键 联结 到 一 起 。 表 9-1 总 结 了 不 同 的 联结 方式 和 对 应 的 功能 。 

表 9-1: 表 联结 

联结 方式 功能 

左 外 联结 ”保留 左 侧 表 (或 join 语句 中 的 第 一 张 表 ) 中 的 所 有 行 数据 ， 使 用 共享 键 来 绑 定 右 侧 表 (或 
join 中 的 第 二 张 表 ) 的 值 。 如 果 右 侧 表 中 没有 匹配 的 值 ， 使 用 空 值 来 填充 

右 外 联结 ”使 用 右 侧 表 中 的 值 作为 初始 的 匹配 键 。 如 果 在 第 一 张 表 ( 左 侧 表 ) 中 没有 对 应 的 值 ， 这 些 行 
会 使 用 空 值 填充 

内 联结 只 返回 两 张 表 中 都 能 够 通过 共享 键 匹配 到 值 的 数据 行 

全 外 联结 ”保留 两 张 表 中 的 所 有 数据 ， 当 共享 键 相 匹配 时 ， 组 合 两 张 表 中 的 数据 到 一 行 中 


如 果 数 据 并 不 是 完全 匹配 ， 或 者 不 具备 一 对 一 关系 ， 同 时 你 在 使 用 外 联结 ， 就 会 有 为 空 值 
的 数据 行 。 当 表 不 匹配 时 ， 外 联结 保持 表 中 的 数据 存在 ， 并 用 空 值 奉 代 缺 失 的 数据 。 这 在 
因为 报告 必需 而 想 要 保留 不 匹配 的 数据 时 非常 有 用 。 

如 果 想 要 联结 table_a 和 table_b， 同 时 确保 不 会 丢失 任何 table_a 里 的 数据 ， 那 可 以 编写 
下 面 的 代码 : 

joined_ table = table a.join( 
table_b, 'table a column_ name', 'table_b_column_name') 

在 结果 joined_table 中 ， 我 们 会 得 到 基于 传递 的 列 名 称 ， 和 table_a 匹配 的 所 有 table_b 
值 。 如 果 table_a 中 有 值 不 匹配 table_b， 我 们 会 保留 这 些 行 ， 但 是 它们 会 在 table_b 列 上 
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成 为 空 值 。 如 果 table_b 中 有 值 没有 在 table_a 中 匹配 ， 它 们 会 被 排除 在 新 表 之 外 。 选 择 
哪 一 张 表 在 前 面 和 使 用 哪 一 种 方式 的 联结 是 非常 重要 的 。 
我 们 绝 不 想 要 空 值 存在 。 我 们 的 问题 围绕 数据 是 怎样 关联 的 ， 为 了 达到 这 个 目的 ， 我 们 想 
要 使 用 内 联结 。agate 库 的 join 方法 允许 传递 inner=True 参数 ， 这 会 使 函数 仅 作 内 联结 ， 
只 保留 匹配 的 行 ， 不 会 在 联结 后 有 空 值 行 。 
我 们 尝试 联结 童工 数据 和 新 规整 后 的 cpi_table。 当 我 们 查看 这 两 个 表 时 ， 可 以 将 它们 通 
过 国家 /领土 的 名 称 匹 配 在 一 起 。 在 cpi_table 中 ， 我 们 有 Country/Territory 列 ， 同 时 ， 在 
童工 数据 中 ， 我 们 有 Counties and areas 列 。 为 了 联结 这 两 张 表 ， 运 行 下 面 的 代码 : 

cpi_and_cL = cpi_table.join(ranked, 'Country / Territory', 

"Countries and areas', inner=True) 

将 匹配 行 放 到 新 表 cpi_and_cl 中 。 我 们 可 以 通过 打印 几 个 值 来 查看 这 张 表 ， 同 时 研究 新 的 
联结 后 的 列 ， 像 下 面 代 码 这 样 : 


cpi_and_cL.coLumn_names 









































for r in cpi_and_cl.order_by('CPI 2013 Score' ) .Limit(10) .rows : 
print '{}: {} - {}%'.format(r['Country / Territory'], 
r['CPI 2013 Score'], r['Total (%)']) 


当 查 看 列 名 称 时 ， 可 以 看 到 现在 有 了 两 张 表 里 面 的 所 有 的 列 。 对 数据 进行 简单 计数 返回 93 
行 。 我 们 不 需要 所 有 的 数据 点 (pci_table 有 177 行 ，ranked 有 108 行 )， 我 们 想 要 看 到 的 
就 是 关联 在 一 起 的 数据 。 当 使 用 CPI 得 分 排序 ， 打 印 出 新 的 联结 的 表 时 ， 是 否 注意 到 一 些 
其 他 的 东西 ? 我 们 只 选择 了 最 高 的 10 行 数据 ， 但 是 一 些 有 意思 的 信息 变 得 清晰 ， 

Afghanistan: 8.0 - 10.3% 

Somalia: 8.0 - 49.0% 

Iraq: 16.0 - 4.7% 

Yemen: 18.0 - 22.7% 

Chad: 19.0 - 26.1% 

Equatorial Guinea: 19.0 - 27.8% 

Guinea-Bissay: 19.0 - 38.0% 

Haiti: 19.0 - 24.4% 

Cambodia: 20.0 - 18.3% 

Burundi: 21.0 - 26.3% 


除了 伊拉克 (Iraq) 和 阿富汗 (Afghanistan) 两 个 国家 ， 当 国家 有 非常 低 的 CPI 得 分 ( 即 
政府 腐败 高 概率 ) 时 ， 同 时 有 非常 高 的 童工 雇用 率 。 使 用 agate 库 的 一 些 内 置 方 法 ， 我 们 
可 以 研究 数据 集中 存在 的 类 似 关 系 。 


9.1.4 识别 相关 性 

agate 库 有 一 些 很 好 的 工具 ， 供 你 在 数据 集 上 做 简单 的 数据 分 析 。 这 是 一 个 很 好 的 初始 工 
具 集 一 一 可 以 从 agate 库 的 工具 开始 ， 之 后 转向 更 高 级 的 数据 分 析 库 ， 包 括 pandas、numpy 
和 scitpy， 按 需 选择 。 

我 们 想 要 确定 政府 腐败 和 童工 雇用 率 之 间 是 否 有 关联 。 我 们 将 使 用 的 第 一 个 工具 是 简单 的 
皮尔 森 相 关系 数 (http://onlinestatbook.com/2/describing_bivariate_data/pearson.html)。agate 
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库 基 于 这 个 算法 开发 了 agate-stat 库 (https://github.com/onyxfish/agate-stats)。 在 这 之 前 ， 
你 可 以 使 用 numpy 进行 相关 性 分 析 。 相 关系 数 (例如 皮尔 森 相 关系 数 ) 告诉 我 们 数据 是 否 
关联 ， 以 及 一 个 因子 是 否 会 影响 另 一 个 因子 。 

如 果 你 还 没有 安装 numpy， 可 以 通过 运行 命令 pip install numpy 安装 它 。 之 后 ， 使 用 下 再 
几 行 代码 计算 童工 雇用 率 和 政府 腐败 指数 之 间 的 相关 性 : 


import numpy 




















numpy.corrcoef(cpi_and_cl.columns['Total (%)'].values(), 
cpi_and_cl.columns['CPI 2013 Score'].values())[0, 1] 


我 们 首先 得 到 了 类 似 于 之 前 曾 见 到 的 CastError 异常 的 错误 。 因 为 numpy 需要 浮 点 型 数据 ， 
而 不 是 小 数 型 ， 所 以 我 们 需要 将 数字 转换 回 浮 点 数 。 我 们 可 以 使 用 列表 生成 式 做 这 个 转换 : 


numpy.corrcoef( 
[float(t) for t in cpi_and_cl.columns['Total (%)'].values()], 
[float(s) for s in cpi_and_cl.columns['CPI 2013 Score'].values()])[0, 1] 


我 们 的 输出 显示 出 一 些 轻 微 的 负 相 关 : 


-0.36024907120356736 











负 相关 意味 着 ， 一 个 变量 增长 ， 另 一 个 变量 会 减 小 。 正 相关 意味 着 两 个 变量 
会 同时 增长 或 减 小 。 皮 尔 森 相关 系数 在 一 1 到 1 之 间 波 动 ，0 意味 着 无 相关 
性 ， 一 1 和 1 意味 着 相关 性 很 强 。 








我 们 的 结果 是 一 0.36， 意 味 着 弱 相 关 ， 但 是 的 确 有 关联 。 我 们 可 以 使 用 这 个 结果 更 加 深入 
地 研究 这 一 数据 集 ， 搞 清楚 其 中 的 含义 。 

9.1.5 找 出 离 群 值 

随 着 数据 分 析 的 进行 ， 你 会 想 要 使 用 一 些 其 他 的 统计 学 方法 来 解释 你 的 数据 。 一 个 人手 点 
就 是 找 出 离 群 值 。 

离 群 值 出 现在 个 别 的 数据 明显 有 别 于 数据 集 其 他 部 分 的 时 候 。 离 群 值 会 告诉 


我 们 数据 的 一 部 分 情况 。 有 时 候 ， 去 掉 它们 会 展现 出 一 个 明显 的 趋势 ， 有 些 
时 候 ， 离 群 值 本 身 会 透露 出 很 多 信息 。 





























有 了 agate 库 ， 找 到 离 群 值 是 很 容易 的 。 有 两 种 方法 可 以 做 到 这 一 点 : 一 是 使 用 标准 差 ， 
第 二 个 是 使 用 绝对 中 位 差 。 如 果 你 有 一 些 统计 学 知识 ， 并 且 想 要 使 用 其 中 的 一 个 ， 尽 情 去 
尝试 ! 如 果 没 有 相关 的 统计 学 基础 ， 在 你 的 数据 集 上 同时 使 用 两 种 方式 来 分 析 偏差 ， 可 能 
会 揭露 出 不 同 的 结果 。” 




















注 2: 更 多 关于 绝对 中 位 差 和 标准 差 的 信息 ， 查 看 Matthew Martin 关于 为 什么 我 们 仍 在 使 用 标准 差 的 文 
章 (http:/www.separatinghyperplanes.com/2014/04/why-do-statisticians-use-standard.html)， 以 及 Stephen 
Gorad 关于 为 什么 及 何 时 使 用 均 差 的 学 术 文 章 (http://www.leeds.ac.uk/educol/documents/00003759.htm)。 
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如 果 你 已 经 知道 数据 的 分 布 ， 可 以 采用 适当 的 方式 来 确定 变化 值 ， 但 是 在 你 
第 一 次 探索 数据 时 ， 尝 试 使 用 多 种 不 同 的 方法 来 确定 数据 的 分 布 ， 并 了 解数 
据 的 组 成 。 





我 们 将 会 使 用 agate 表 的 标准 差 离 群 值 (http://agate.readthedocs.io/en/latest/cookbook/ 
statistics.html#identify-outliers) 方法 。 这 个 方法 返回 包含 至 少 3 个 高 于 或 低 于 平均 值 的 偏 
差 值 表 。 下 面 是 使 用 agate 表 查 看 标准 差 离 群 值 的 方法 。 


如 果 你 在 使 用 IPython 处 理 数据 ， 并 且 需 要 安装 新 的 库 ， 可 以 使 用 IPython 的 
魔法 命令 %autoreload， 在 另外 一 个 终端 安装 新 的 库 后 重新 加 载 你 的 Python 
环境 。 党 试 执 行 %Load_ext autoreLoad， 然 后 执行 %autoreload。 没 错 ! 你 拥 
有 了 新 的 库 ， 却 没有 丢失 任何 的 进程 信息 。 















































首先 ， 需 要 通过 运行 命令 pip install agate-stat 安装 agate-stat 库 。 然 后 运行 下 面 的 代码 : 








import agatestats 
agatestats .patch() 


std_dev_outliers = cpi_and_cL.stdev_outLiers( 
'Total (%)', deviations=3, reject=False) ©@ 


len(std_dev_outliers.rows) @ 


std_dev_outliers = cpi and_cl.stdev _outliers( 
'Total (%)', deviations=5, reject=False) © 


len(std_dev_outliers.rows) 


@ 使 用 童工 雇用 数据 的 Total (%) 列 和 agate-stats stdev_outliers 方 法 来 查看 我 们 的 
数据 中 是 否 含有 容易 找到 的 标准 差 离 群 值 。 我 们 将 这 个 方法 的 输出 赋值 给 一 个 新 的 表 
std_dev_outliers。 我 们 使 用 参数 reject=false 来 告诉 函数 我 们 希望 看 到 离 群 值 。 如 
我 们 设置 reject 等 于 True， 将 会 得 到 没有 离 群 值 的 数据 。 

@ 查看 我 们 发 现 了 多 少 行 离 群 值 (这 张 表 共有 94 行 数据 ) 。 

@ 提高 偏差 的 大 小 ， 减 少 离 群 值 的 数量 。(deviations=5。) 

从 输出 中 看 出 ， 我 们 对 数据 分 布 并 没有 很 好 的 了 解 。 当 我 们 使 用 Total (%) 列 ， 尝 试 使 用 3 

作为 标准 差 识别 离 群 值 时 ， 得 到 了 和 当前 表 完 全 匹配 的 一 张 表 。 这 不 是 我 们 想 要 的 结果 。 

当 使 用 5 作为 差 值 界限 时 ， 我 们 并 没有 看 到 数据 的 变化 。 这 告诉 我 们 数据 并 不 是 常规 的 分 

布 。 为 了 找到 数据 中 真正 的 偏差 ， 我 们 需要 更 深入 地 探索 来 确定 是 否 需要 重新 划分 数据 ， 

使 其 变 为 我 们 研究 的 国家 的 子 集 。 

可 以 使 用 平均 绝对 偏差 检查 Total (%) 列 数据 的 偏差 : 


mad = cpi_and_cl.mad_outliers('Total (%)') 

















沁 








for r in mad.rows: 
print r['Country / Territory'], r['Total (%)'] 




















有 趣 ! 我 们 的 确 找 到 了 一 个 更 小 的 离 群 值 的 子 集 ， 但 是 得 到 了 一 个 奇怪 的 结果 列表 : 


Mongolia 10.4 
India 11.8 
Philippines 11.1 


查看 这 个 列表 时 ， 我 们 并 没有 看 到 数据 中 的 任何 最 高 值 或 最 低 值 。 这 意味 着 ， 对 于 识别 离 
群 值 来 说 ， 数 据 集 并 没有 遵从 正常 的 统计 学 规则 。 








取决 于 数据 集 和 数据 的 分 布 ， 这 两 个 方法 经 常会 有 效 地 展示 出 数据 的 信息 。 
如 果 没 有 的 话 ， 就 像 我 们 这 个 数据 集 ， 继 续 搞 清楚 数据 能 够 告诉 我 们 什么 联 
系 和 趋势 。 


在 探索 了 数据 的 分 布 和 数据 分 布 所 展现 的 趋势 后 ， 你 会 想 要 探索 数据 中 的 分 组 关系 。 下 面 
这 一 市 解释 了 怎样 对 数据 分 组 。 


9.1.6 ”创建 分 组 


为 了 进一步 研究 数据 ， 我 们 将 要 创建 分 组 ， 研 究 分 组 之 间 的 关系 。agate 库 提 供 了 很 多 不 
同 的 工具 来 创建 分 组 ， 还 有 其 他 一 些 方法 来 聚合 这 些 分 组 ， 确 定 分 组 之 间 的 联系 。 早 些 时 
候 ， 我 们 的 童工 数据 集中 有 完好 的 各 大 洲 数 据 。 让 我 们 尝试 从 地 理 角 度 ， 按 照 大 洲 分 组 数 
据 ， 看 一 下 这 样 是 否 会 揭露 一 些 与 政府 腐败 数据 之 间 的 关系 或 总 结 出 其 他 结论 。 

首先 ， 我 们 要 解决 怎样 拿 到 大 洲 数 据 的 问题 。 在 本 书 的 git 仓库 中 (https://github.com/ 
jackiekazil/data-wrangling)， 我 们 提供 了 一 个 .json 文件 ， 其 中 列举 了 不 同 大 洲 包含 的 国家 。 
使 用 这 个 数据 ， 我 们 可 以 添加 一 列 ， 展 示 每 个 国家 所 属 的 大 洲 ， 以 便 通 过 大 洲 分 组 。 下面 
是 这 一 过 程 的 代码 : 


import json 





















































country_json = json.Loads(open('earth.json'，'rb').read()) O 
country_dict = {} 


for dct in country_json: 
country_dict[dct['name']] = dct['parent'] 名 


def get_country(country_row): 
return country_dict.get(country_row['Country / Territory'].lower()) © 


cpi_and_cl = cpi and_cl.compute([('continent', 
agate.Formula(text_type, get_country)), 
])@ 


@ 使 用 json 库 来 加 载 json 文件 。 如 果 你 观察 这 个 文件 的 话 ， 会 看 到 文件 中 保存 了 类 型 为 
字典 的 列表 。 

@ 遍历 country_dict， 将 country 作为 键 、continent 作为 值 填充 到 字典 中 。 

@@ 创建 国 数 : 接受 国家 作为 参数 ， 返 回 它 归 属 的 大 洲 。 这 个 函数 使 用 了 Python 的 字符 串 
方法 lower ， 将 大 写字 母 禁 换 为 小 写 形式 。.json 文件 包含 的 都 是 小 写 的 国家 名 称 。 
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@ 使 用 get_country 函数 创建 一 个 新 的 列 ，continent。 沿 用 相同 的 表 名 称 。 


现在 我 们 有 了 大 洲 和 国家 数据 。 我 们 需要 做 一 个 快速 的 检查 来 确保 没有 遗漏 任何 东西 。 为 





了 检查 ， 运 行 下 面 的 代码 : 


for r in cpi_and_cl.rows: 
print r['Country / Territory'], r['continent'] 


呢 ， 看 起 来 我 们 落下 了 一 些 数 据 ， 因 为 我 们 可 以 在 一 些 国家 中 看 到 None 类 型 的 数据 : 








Democratic Republic of the Congo None 


Equatorial Guinea None 
Guinea-Bissay None 





最 好 不 要 丢失 这 些 数据 ， 让 我 们 看 一 下 为 什么 这 些 行 数据 没有 匹配 上 。 我 们 只 想 要 打印 出 





没有 匹配 上 的 行 。 可 以 使 用 agate 来 帮忙 找到 这 些 行 ， 运 行 下 面 的 代码 : 


no_continent = cpi_and_cL.where(Lambda x: x['continent'] is None) 











for r in no_continent.rows: 
print r['Country / Territory'] 


你 的 输出 应 该 类 似 于 下 面 这 样 : 


Saint Lucia 

Bosnia and Herzegovina 

Sao Tome and Principe 

Trinidad and Tobago 

Philippines 

Timor-Leste 

Democratic Republic of the Congo 
Equatorial Guinea 

Guinea-Bissau 





可 以 看 到 ， 没 有 大 洲 数据 的 国家 列表 很 短 。 我 们 建议 只 修改 earthjson 数据 文件 ， 





因为 这 


会 使 在 未 来 使 用 相同 的 数据 文件 关联 相同 的 数据 更 简单 。 如 果 你 使 用 代码 来 找到 异常 值 并 


匹配 它们 ， 当 用 新 数据 重 做 时 会 变 得 复杂 ， 每 一 次 更 新 数据 都 需要 修改 代码 。 





为 了 修复 json 文件 中 的 匹配 问题 ， 我 们 需要 搞 清楚 为 什么 国家 没有 被 找到 。 打 开 earth. 


json 文件 ， 找 到 no_continent 表 中 的 几 个 国家 。 例 如 : 





{ 
"name": "equatorial Guinea", 
"parent": "africa" 

]， 

{ 
"name": "trinidad & tobago", 
"parent": "north america" 

]， 

{ 
"name": "democratic republic of congo", 
"parent": "africa" 

和 





A 
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正如 我 们 在 .json 文件 中 看 到 的 那样 ， 有 一 些 细微 的 差别 ， 影 响 了 我 们 顺利 地 找到 国家 归 
属 的 大 洲 。 本 书 的 git 仓库 中 同样 包含 了 一 个 名 叫 earth-cleaned.json 的 文件 ， 这 个 文件 在 
earth.json 文件 上 做 出 了 一 些 必要 的 修改 ， 比 如 添加 the 到 刚果 (Democratic Republic of the 
Congo，DRC) 条 目 中 ， 将 若干 条 目 中 的 & 改 为 “and”。 我 们 现在 可 以 重新 运行 本 节 最 初 
的 代码 ， 并 且 使 用 新 的 文件 作为 country_json 数据 。 你 需要 重新 联结 表 ， 避 免 重 复 的 列 
(使 用 之 前 用 过 的 联结 两 张 表 的 代码 )。 在 重新 运行 这 两 部 分 的 代码 后 ， 你 应 该 不 会 得 到 不 
匹配 的 国家 了 。 


让 我 们 尝试 分 组 完整 的 大 洲 数 据 ， 看 一 下 会 发 现 什么 。 下 面 的 代码 做 了 这 件 事 : 


grp_by_cont = cpi._and_cl.group_by('continent') 





























print grp_by_cont © 


for cont, table ;in grp_by_cont.items(): @ 
print cont, len(table.rows) © 


@ 使 用 agate 库 的 group_by 方法 ， 这 会 返回 一 个 字典 ， 甚 中 键 是 大 洲 名 称 ， 值 是 一 个 新 
表 ， 包 含 这 个 大 洲 的 值 。 

@ 遍历 返回 的 字典 ， 看 一 下 每 张 表 有 多 少 行 。 我 们 将 items 中 的 键 / 值 对 分 别 赋值 给 变量 
cont 和 table， 这 样 cont 代表 键 或 者 大 洲 名 称 ，table 代表 对 应 表 的 值 。 

@ 打印 我 们 的 数据 ， 来 检查 分 组 。 我 们 使 用 Python 的 ten 函数 来 计算 每 一 张 表 中 的 行 数 。 


运行 这 段 代码 ， 我 们 得 到 了 下 面 的 输出 (注意 ， 你 的 顺序 可 能 不 同 ) : 


north america 12 
europe 12 

south america 10 
africa 41 

asia 19 


我 们 可 以 看 到 ， 非 洲 和 亚洲 的 数据 要 大 于 其 他 各 大 洲 。 这 让 我 们 很 感 兴趣 ， 但 是 group_by 
方法 对 于 聚合 数据 来 说 并 不 十 分 容易 。 如 果 想 要 聚合 数据 ， 创 建 一 个 汇总 列 的 话 ， 我 们 需 
要 看 一 下 agate 库 中 的 聚合 方法 。 

我 们 注意 到 agate 表 的 aggregate 方法 (http://agate.readthedocs.io/en/latest/cookbook/tatistics. 
html#aggregate-statistics)， 这 个 方法 接受 一 个 分 好 组 的 表 和 一 系列 的 聚合 操作 (例如 求 和 ) 
来 基于 分 组 计算 一 个 新 的 列 。 


在 查看 了 aggregate 方法 的 文档 后 ， 我 们 最 感 兴 趣 的 是 大 洲 童工 数据 和 腐败 感 指数 相对 比 
的 结果 。 我 们 想 要 使 用 一 些 统计 学 方法 来 把 每 个 分 组 当 作 一 个 整体 来 看 待 ( 使 用 中 位 数 和 
平均 数 )， 但 是 同样 需要 识别 出 最 极端 的 数据 (CPI 得 分 的 最 小 值 ， 童 工 雇用 率 的 最 大 值 )。 
这 会 给 我 们 一 些 民 好 的 比较 结果 : 
agg = grp_by_cont.aggregate([('cl_mean', agate.Mean('Total (%)')), 
('cl_max', agate.Max('Total (%)')), 
('cpi_median', agate.Median('CPI 2013 Score')), 
('cpi_min', agate.Min('CPI 2013 Score'))]) O 

































































agg.print_table() @ 
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@ 在 我 们 分 好 组 的 表 上 调用 aggregate 方法 ， 传 递 一 个 元 组 列表 作为 参数 ， 甚 中 包括 新 的 
列 名 称 和 agate 的 聚合 方法 〈 利 用 新 的 列 命名 计算 新 列 的 值 ) 。 我 们 想 要 计算 童工 雇用 
百分比 的 平均 值 和 最 大 值 ， 还 有 腐败 感 指数 〈《CPI) 得 分 的 中 位 数 和 最 小 值 。 根 据 你 的 
问题 和 数据 的 不 同 ， 你 可 以 使 用 不 同 的 agate 方法 。 
名 打印 新 表 ， 这 样 我 们 可 以 从 视觉 上 直观 比较 数据 。 
当 运 行 这 段 代码 后 ， 你 会 看 到 下 面 的 结果 : 
| a wr 














----------------------------- +--------+------------+----------| 


十 
| continent | CL_mean | cL_max | cpi median | cpi min | 
| 4- +-------- +----- +---------- | 
| south america | 12,710000000000000000000000 | 33,5 | 36,0 | 24 
| north america | 10,333333333333333333333333 | 25,8 | 34,5 | 19 
| africa | 22,348780487804878048780487 | 49,0 | 30,0 | 8 
| asia | 9,589473684210526315789473 | 33,9 | 30,0 | 8 
| europe | 5,625000000000000000000000 | 18,4 | 42,0 | 25 
| 47 +-------- +---- +---------- | 


如 果 想 更 仔细 地 查看 数据 相关 的 图 表 ， 可 以 使 用 agate 表 的 print_bars 方法 ， 该 方法 有 一 
个 标签 列 ( 这 里 是 continent) 和 一 个 数据 列 (这 里 是 cl_max)， 在 IPython 会 话 中 打印 童 
工 雇用 数据 最 大 值 的 图 表 。 输 出 如 下 : 


In [23]: agg.print_bars('continent', 'cl_max') 





continent CL_max 
south america 33,5 
north america 25,8 
africa 49,0 旺 
asia 3359 
europe 18,4 
























































现在 我 们 的 大 洲 数据 有 了 几 种 易于 比较 的 输出 ， 同 时 这 张 图 片 展示 了 一 些 趋势 。 我 们 注意 
到 非洲 的 童工 雇用 率 均值 最 高 ， 最 大 值 也 最 高 ， 亚 洲 和 两 美洲 紧 随 其 后 。 亚 洲 和 南美 洲 相 
对 较 低 的 均值 意味 着 这 些 区 域 可 能 存在 一 个 或 多 个 离 群 值 。 

我 们 看 到 腐败 感 指 数 的 中 位 值 相对 差别 不 大 ， 欧 洲 最 高 (政府 腐败 感 最 低 )。 然 而 ， 当 我 们 看 
最 小 值 (最 精 糕 的 政府 腐败 感 得 分 ) 时 ， 可 以 看 到 非洲 和 亚洲 再 一 次 获得 了 最 糟糕 的 得 分 。 

这 说 明 该 数据 集中 有 几 个 故事 供 我 们 深入 探索 。 我 们 能 够 看 到 政府 腐败 感 和 童工 鹿 用 之 间 
有 联系 (尽管 联系 很 弱 )。 我 们 同样 可 以 研究 哪些 国家 和 大 洲 是 最 糟糕 的 童工 雇用 国家 和 
最 腐败 的 政府 。 我 们 可 以 看 到 非洲 有 着 非常 高 的 童工 雇用 率 和 相对 更 高 的 政府 腐败 感 。 我 
们 知道 亚洲 和 南美 洲 中 存在 一 两 个 国家 ， 相 对 于 他 们 的 邻居 ， 在 童工 雇用 率 上 面 引 人 注目 。 
我 们 的 聚合 探索 就 到 这 里 了 。 我 们 可 以 继续 使 用 已 创建 的 表 来 寻找 更 多 信息 ， 进 行 更 深入 的 探索 。 


9.1.7 深入 探索 


agate 库 还 有 其 他 一 些 强 有 力 的 特性 ， 另 外 还 有 一 些 有 趣 的 数据 分 析 库 可 以 用 来 在 你 的 数 
据 上 进行 实验 。 
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根据 你 的 数据 和 问题 的 不 同 ， 你 可 能 会 发 现 一 些 特性 和 库 比 其 他 特性 和 库 更 
有 用 ， 但 是 我 们 强烈 建议 你 找到 使 用 不 同 工 具 来 实验 的 方式 。 同 数据 分 析 本 
身 一 样 ， 这 会 加 深 你 对 Python 和 数据 分 析 库 的 理解 。 

















agate-stat 库 有 一 些 有 趣 的 统计 方法 我 们 还 没有 探索 过 。 你 可 以 通过 GitHub 跟踪 最 新 的 
发 布 和 功能 (https://github.com/onyxfish/agate-stats ) 。 


除 此 之 外 ， 我 们 建议 你 继续 探索 numpy。 你 可 以 使 用 numpy 来 计算 百 分 位 数值 (https:/docs. 
scipy.org/doc/mumpy-dev/reference/generated/mumpy.percentile.html)。 你 同样 可 以 更 深入 地 
使 用 scipy， 使 用 z 得 分 统计 方法 来 确定 离 群 值 (https://docs.scipy.org/doc/scipy/reference/ 
generated/scipy.stats.mstats.zscore.htm!l ) 。 


如 果 你 有 时 间 敏 感 的 数据 ，numpy 能 够 计算 数据 之 间 列 与 列 的 变化 ， 从 而 探索 随时 间 推 移 数 
据 的 变化 (https://docs.scipy.org/doc/numpy/reference/generated/mumpy.diff.html) 。agate 同样 
可 以 计算 时 间 相 关 数 据 中 列 的 变化 (http://agate.readthedocs.io/en/1.0.0/tutorial.html#computing- 
new-columns)。 不 要 忘记 在 组 成 时 间 列 的 时 候 使 用 时 间 类 型 ， 因 为 这 样 做 你 能 够 在 时 间 上 做 
一 些 有 趣 的 分 析 (例如 随时 间 变 化 的 百分比 变化 或 一 系列 时 间 变 化 的 映射 )。 

如 果 你 想 要 通过 更 多 的 统计 方法 来 探索 数据 ， 可 安装 latimes-calculate 库 (http://latimes- 
calculate.readthedocs.io/en/latest/index.html) 。 这 个 库 有 很 多 计算 方法 ， 同 样 还 有 一 些 有 趣 的 
地 理 数 据 分 析 工 具 。 如 果 你 获取 了 一 些 地 理 数 据 ， 这 个 库 可 以 提供 一 些 有 价值 的 工具 来 帮 
你 更 好 地 理解 、 映 射 和 分 析 数 据 。 

如 果 你 想 要 更 深入 进行 数理 计算 和 分 析 ， 我 们 强烈 推荐 Wes McKinney 的 《利用 Python 进 
行 数据 分 析 》 一 书 。 这 本 书 介 绍 了 一 些 更 健壮 的 数据 分 析 库 ， 包 括 pandas、numpy 和 scipy 
系列 的 库 等 。 

花 时 间 用 一 些 方法 利用 我 们 之 前 学 到 的 课程 来 探索 你 的 数据 。 现 在 我 们 会 进一步 分 析 数 
据 ， 确 定 一 些 可 以 得 出 结论 和 分 享 知 识 的 方式 。 


9.2 分 析 数 据 

如 果 你 已 经 尝试 了 agate 库 手册 (http://agate.readthedocs.org/en/latest/cookbook.html， 用 
于 研究 的 各 种 不 同 的 方法 和 工具 的 汇总 ) 中 的 更 多 示例 ， 就 会 足够 熟悉 数据 并 能 开始 你 的 
分 析 。 
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数据 探索 和 数据 分 析 之 间 有 哪些 不 同 ? 当 分 析 数 据 时 ， 我 们 提出 问题 并 且 堂 
试 使 用 已 有 的 数据 回答 这 些 问 题 。 我 们 可 能 会 对 数据 集 进行 组 合 和 分 组 ， 以 
构建 一 个 统计 可 用 的 样本 。 而 在 数据 探索 中 ， 我 们 只 是 想 要 研究 数据 集 的 一 
些 趋势 和 属性 ， 不 尝试 去 回答 特定 的 问题 或 得 出 确定 的 结论 。 





























在 一 些 基本 的 分 析 后 ， 我 们 可 以 尝试 回答 在 数据 探索 中 发 现 的 一 些 问题 : 


。 为 什么 在 非洲 童工 雇用 的 概率 更 高 ? 
。 在 亚 训 和 南美 济 存 在 什么 样 的 童工 雇用 离 群 值 ? 
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。 腐败 感 和 童工 雇用 率 有 什么 关系 ? 

对 于 你 的 数据 集 ， 你 会 有 不 同 的 问题 ， 但 是 尝试 跟随 我 们 的 实例 ， 并 且 找 到 你 想 要 探索 的 
趋势 。 任 何 统计 学 上 的 离 群 值 或 者 聚合 趋势 都 可 以 将 你 引 向 有 趣 的 问题 去 研究 。 

对 我 们 的 数据 来 说 ， 最 有 趣 的 问题 是 ， 在 非 训 政 府 腐败 感 和 童工 雇用 的 关系 。 政 府 腐败 ， 
或 者 政府 腐败 感 ， 是 否 会 影响 社区 保护 童工 不 被 雇用 的 能 力 ? 





根据 所 使 用 的 数据 集 和 数据 探索 结果 ， 你 可 能 会 有 很 多 感 兴趣 、 想 要 探索 
的 问题 。 尝 试 聚焦 于 一 个 具体 的 问题 ， 并 用 你 的 分 析 来 回答 它 。 针 对 多 个 
具体 问题 重复 这 一 过 程 。 专 注 会 帮助 你 找到 好 的 答案 ， 保 持 你 的 分 析 明 确 
清晰 。 


























回答 这 个 问题 需要 更 多 的 探索 和 更 多 的 数据 集 。 我 们 可 能 希望 阅读 更 多 的 文章 ， 看 一 下 在 
这 个 主题 上 有 哪些 研究 结果 。 我 们 可 能 还 希望 访问 这 一 领域 的 专家 。 最 终 ， 我 们 可 能 希望 
选择 非洲 的 一 个 特定 地 区 或 一 系列 国家 ， 来 更 好 地 评估 童工 座 用 情况 。 下 面 这 一 小 方 展示 
了 怎么 做 这 件 事 。 


9.2.1 分离 和 聚焦 数据 

为 了 之 后 的 分 析 ， 我 们 首先 需要 分 离 出 非洲 国家 的 数据 ， 更 加 充分 地 探索 这 一 子 集 的 数 
据 。 我 们 已 经 知道 了 很 多 使 用 agate 库 来 过 滤 数 据 的 方式 ， 所 以 让 我 们 从 这 里 开始 。 下 面 
的 代码 展示 了 怎样 把 非洲 的 数据 同 其 他 数据 分 离开 来 : 


africa_cpi cl = cpi_and_cl.where(lambda x: x['continent'] == 'africa') © 


























for r in africa cpi cl.order_by('Total (%)', reverse=True).rows: 
print "{}: {}% - {}".format(r['Country / Territory'], r['Total (%)'], 
r['CPI 2013 Score']) 四 


import numpy 
print numpy.corrcoef( © 
[float(t) for t in africa_cpi_cl.columns['Total (%)'].values()], 
[float(c) for c in africa_cpi_cl.columns['CPI 2013 Score'].values()])[0, 1] 


africa_cpi cl = africa_cpi cl.compute([('Africa Child Labor Rank', 
agate.Rank('Total (%)', reverse=True)), 
]) 


africa_cpi_cL = africa_cpi_cL.compute([('Africa CPI Rank ' ， 
agate.Rank('CPI 2013 Score ' ) )， 
])@ 


@ 使 用 表 方 法 where 来 过 滤 出 所 属 大 洲 是 africa 的 行 。 

@ 使 用 某 种 格式 化 方法 打印 这 些 行 ， 这 样 我 们 可 以 查看 数据 并 进行 彻底 检查 。 我 们 想 要 确 
保 只 有 非洲 国家 的 数据 ， 并 且 能 够 看 到 总 童工 雇用 百分比 和 CPI 得 分 。 

@ 在 分 离 出 最 感 兴趣 的 数据 后 ， 看 一 下 皮尔 森 相关 系数 是 否 变 化 。 

@ 添加 一 个 新 的 排序 列 ， 来 展示 我 们 子 集 中 国家 之 间 的 相互 排名 。 
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在 这 个 数据 子 集 中 ， 我 们 计算 了 新 的 皮尔 森 相关 系数 : 

-0.404145695171 
我 们 的 皮尔 森 相 关系 数 下 降 了 ， 表 示 相 对 于 全 球 数 据 ， 非 洲 数 据 中 童工 雇用 和 腐败 感 之 间 
有 着 更 强 的 相关 性 。 
现在 让 我 们 看 一 下 ， 是 否 可 以 找 出 一 个 好 故事 ， 找 到 我 们 想 要 去 研究 的 数据 点 。 我 们 会 计 
算 腐败 感 和 童工 雇用 率 的 平均 值 ， 输 出 有 最 高 童工 雇用 率 和 最 糟糕 的 腐败 感 指数 的 国家 
( 即 比 均值 表现 更 差 的 国家 )。 下 面 是 相关 的 代码 : 


cl_mean = africa_cpi_cL.aggregate(agate.Mean('TotaL (%)')) 
cpi_mean = africa_cpi_cL.aggregate(agate.Mean('CPI 2013 Score')) © 





























def highest_rates(row): 
if row['Total (%)'] > cl_mean and row['CPI 2013 Score'] < cpi nmean: © 
return True 
return False 


highest_cpi_cL = africa cpi cl.where(lambda x: highest_rates(x)) © 


for r in highest cpi_cl.rows: 
print "{}: {}% - {}".format(r['Country / Territory'], r['Total (%)'], 
r['CPI 2013 Score']) 


@ 计算 我 们 最 感 兴趣 的 列 均值 : 腐败 得 分 和 童工 雇用 率 。 

@ 创建 函数 来 识别 有 着 高 童工 雇用 率 和 低 CPI 得 分 ( 即 高 腐败 ) 的 国家 。 

四 函数 highest_rates 返回 True 或 False， 来 选择 一 行 数据 。 这 个 Lambda 函数 判断 国家 的 
童工 雇用 率 和 腐败 感 是 否 高 于 均值 。 


当 运 行 这 段 代码 时 ， 我 们 看 到 了 一 些 有 趣 的 输出 。 特 别 是 下 面 这 些 行 : 


Chad: 26.1% - 19.0 

Equatorial Guinea: 27.8% - 19.0 
Guinea-Bissau: 38.0% - 19.0 
Somalia: 49.0% - 8.0 


我 们 输出 了 一 些 与 均值 离 得 不 太 远 的 位 于 “中 部 ”的 数据 ， 随 之 是 这 些 有 着 低 CPI 得 分 和 
高 童工 雇用 率 的 数据 。 因 为 我 们 对 为 什么 这 里 会 有 高 童工 雇用 率 ， 以 及 腐败 是 怎样 影响 童 
工 雇用 率 这些 问 题 感 兴趣 ， 所 以 这 些 数 据 对 我 们 来 说 最 为 适合 。 

随 着 研究 的 继续 ， 我 们 想 要 找 出 这 些 国 家 正在 发 生 着 什么 。 是 否 有 和 这 些 国家 年 轻 人 和 童 
工 相 关 的 电影 或 文档 ? 是 否 有 关于 这 一 主题 的 文章 和 书籍 ? 是 否 有 我 们 可 以 联系 的 专家 或 
研究 者 ? 

当 更 加 深入 地 观察 这 些 国家 ， 我 们 看 到 一 些 明显 的 事实 : 贩卖 儿童 、 性 虐待 、 非 法 的 宗教 
团体 、 大 量 的 小 摊贩 和 劳动 者 需求 。 这 些 事实 是 否 与 选举 权 被 剥 前 有 关 ? 与 民众 对 政府 不 
膏 任 有 关 ? 我 们 是 否 可 以 追踪 这 些 国家 的 民众 和 他 们 的 邻里 ?我 们 是 否 能 够 找到 组 织 或 人 
来 缓解 这 些 问题 ? 


随 着 时 间 的 推移 ， 观 察 政治 和 时 代 变 化 的 影响 是 很 有 趣 的 事情 。 我 们 可 以 详细 考察 
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UNICEF 的 数据 ， 或 者 聚焦 于 一 个 国家 ， 利 用 UNICEF 的 多 指标 类 集 调 查 (https://www. 
unicef.org/statistics/index_24302.html) 数据 来 理解 过 去 几 十 年 发 生 的 变化 。 


对 于 你 自己 的 数据 集 ， 你 需要 确定 未 来 探索 时 有 哪些 可 能 性 。 你 能 找到 更 多 的 数据 以 供 控 
索 吗 ? 你 是 否 可 以 访问 一 些 人 ， 或 者 在 一 段 较 长 的 时 间 中 找到 一 些 趋势 ? 是 否 有 这 一 主题 
的 书籍 、 电 影 或 者 文章 能 够 给 你 更 多 启发 ? 你 的 分 析 是 未 来 研究 的 开始 。 


9.2.2 ”你 的 数据 在 讲 什么 
现在 我 们 已 经 探索 和 分 析 了 数据 ， 可 以 开始 搞 清楚 数据 在 告诉 我 们 什么 。 正 如 我 们 在 第 一 


次 研究 童工 数据 集 时 经 历 的 那样 ， 有 时 数据 并 没有 什么 联系 ， 没 讲述 任何 故事 ， 没 有 任何 
相关 性 。 发 现 这 一 点 也 没关系 ! 











有 时 候 ， 没 找到 相关 性 将 促使 我 们 继续 研究 ， 以 找到 真正 存在 的 联系 。 有 时 
候 ， 没 找到 联系 ， 这 件 事 情 本 身 就 是 一 个 发 现 。 


在 数据 分 析 中 ， 我 们 寻找 趋势 和 模式 。 正 如 我 们 在 童工 雇用 数据 中 看 到 的 那样 ， 大 多 数 时 
候 分 析 是 更 深入 研究 的 开始 。 和 数据 讲 故事 一 样 ， 增 加 人 们 的 声音 或 者 其 他 的 角度 ， 都 是 
找到 联系 和 发 现 问题 的 绝 佳 方式 。 


如 果 你 发 现 了 一 些 联系 ， 即 使 是 很 弱 的 联系 ， 也 可 以 更 深入 地 挖掘 。 这 些 联 系 会 通 向 更 
好 的 问题 和 更 专注 的 研究 。 正 如 我 们 在 童工 数据 中 看 到 的 那样 ， 我 们 对 研究 越 专注 ， 就 
越 容易 看 到 联系 。 从 宽泛 的 研究 开始 是 很 好 的 ， 但 是 用 更 加 精确 的 视角 来 结束 研究 十 分 
重要 。 


9.2.3 描述 结论 


当 你 已 经 分 析 了 数据 并 且 理 解 了 数据 中 的 联系 ， 就 可 以 开始 确定 你 能 得 出 什么 结论 。 真 正 
了 解 你 的 数据 集 和 主题 非常 重要 ， 这 会 对 你 的 想法 提供 强 有 力 的 支持 。 随 着 你 的 数据 分 
析 、 访 谈 、 研 究 的 完成 ， 你 的 结论 会 逐渐 形成 ， 你 只 需要 确定 用 什么 方式 来 向 全 世界 分 享 


这 些 结论 。 

















如 果 你 在 寻找 确切 结论 的 过 程 中 陷入 困境 ， 在 你 的 发 现 中 包含 开放 性 的 问题 
是 完全 可 取 的 。 一 些 大 的 故事 就 是 从 几 个 简单 的 问题 开始 的 。 











如 果 你 能 够 阐明 主题 ， 指 出 为 了 得 出 一 个 更 全 面 的 结论 ， 需 要 更 多 的 文档 、 研 究 和 行动 的 
话 ， 这 本 身 就 是 一 个 很 重要 的 信息 。 正 如 我 们 在 研究 中 发 现 的 那样 ， 很 难说 政府 腐败 引发 
了 高 的 童工 雇用 率 ， 但 是 我 们 可 以 说 ， 这 之 间 有 很 弱 的 相关 性 ， 并 且 我 们 想 要 研究 和 分 析 
它们 之 间 关 联 的 方式 一 一 特别 是 在 茶 些 非洲 国家 。 





























9.2.4 将 结论 写成 文档 

当 你 发 现 一 些 结 论 和 更 多 想 研 究 的 问题 之 后 ， 应 该 开始 将 你 的 工作 成 果 写 成 文档 。 作 为 文 
当 和 最 终 展示 成 果 的 一 部 分 ， 你 需要 对 使 用 的 数据 源 和 分 析 的 数据 数量 了 如 指 掌 。 在 我 们 
的 问题 中 ， 我 们 只 研究 了 大 约 90 个 数据 点 ， 但 它们 代表 了 我 们 想 要 研究 的 部 分 。 

你 可 能 会 发 现 你 关注 的 数据 集 比 预期 的 小 。 只 要 你 请 楚 你 使 用 的 方法 和 使 用 小 数据 集 的 原 
因 ， 就 不 会 把 听众 和 报告 引入 歧途 。 在 下 一 章 ， 我 们 会 更 深入 地 探究 如 何 报告 发 现 ， 将 我 
们 的 想法 和 工作 写成 文档 ， 把 我 们 的 想法 和 世界 分 享 。 


9.3 小 结 

在 这 一 章 ， 我 们 使 用 了 一 些 新 的 Python 库 和 技术 ， 探 索 和 分 析 了 我 们 的 数据 集 。 你 已 经 能 
够 导入 数据 、 联 结 数 据 、 分 组 数据 ， 并 且 基 于 发 现 创 造 新 的 数据 集 。 

现在 你 可 以 使 用 统计 学 方法 来 找到 离 群 值 ， 衡 量 数据 之 间 的 相关 性 。 你 可 以 通过 分 离 有 趣 
的 分 组 ， 并 且 深 入 数据 探索 之 中 ， 确 定 清晰 的 、 可 回答 的 问题 来 研究 。 如 果 你 曾经 使 用 过 
IPython 和 %store 来 保存 变量 ， 在 下 一 章 ， 我 们 会 用 这 个 命令 做 更 多 的 交互 。 
现在 你 应 该 能 够 ， 

。 使 用 agate 库 评估 你 的 数据 ; 

。 确定 哪些 事 ， 如 果 有 的 话 ， 在 数据 中 是 至 关 重 要 的 ， 

。 找到 数据 中 的 入 手 点 或 一 部 分 的 数据 来 做 深入 研究 ， 得 到 结论 ， 

。 通过 分 析 和 探索 数据 挑战 你 的 假设 。 

本 章 中 涉及 的 新 概念 和 库 总 结 在 表 9-2 中 。 


表 9-2: 新 的 Python 编程 概念 和 库 
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概念 / 库 功能 

agate 库 使 数据 分 析 变 得 简单 ， 能 够 从 CSV 数据 中 读 取 数据 ， 创 建 供 分 析 
的 表 ， 运 行 基本 的 数据 分 析 函 数 ， 在 数据 集 上 应 用 过 滤器 ,洞察 
数据 

xlrd ctype 和 ctype_text 对 象 当 使 用 xtrd 分 析 Excel 数据 时 ， 让 你 能 够 轻松 地 看 到 数据 的 类 型 

isintance 函数 检验 Python 对 象 的 类 型 。 如 何 类 型 匹配 , 结果 返回 一 个 布尔 值 

lambda 函数 Python 中 的 单行 函数 ， 对 数据 集 的 简单 过 滤 或 解析 非常 有 用 。 注 
意 不 要 书写 不 易 阅 读 和 理解 的 Lanbda 畏 数 。 如 果 国 数 很 复杂 ， 尝 
试用 一 个 小 国 数 来 代替 lambda 函数 

联结 (内 联结 ， 外 联结 ， 左 联结 ， 允许 你 通过 一 个 或 多 个 匹配 的 域 联结 两 个 不 同 的 数据 集 。 根 据 联 

右 联结 ) 结 数据 方式 的 不 同 (内 /外 和 左 / 右 )， 你 会 得 到 不 同 的 数据 集 。 
花 一 些 时 间 思 考 什么 类 型 的 联结 更 符合 你 的 需求 

异常 处 理 使 你 能 够 使 用 代码 预见 和 处 理 Python 异常 。 明 确 和 清楚 的 异常 捕 
获 永 远 是 更 好 的 ， 这 样 你 不 会 捕获 过 度 泛 化 的 异常 而 漏 掉 bug 

numpy coerrcoef 使 用 统计 学 方法 ， 例 如 皮尔 森 相关 系数 ， 来 确定 数据 集中 的 两 部 
分 是 否 有 联系 
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概念 / 库 


( 续 ) 


功能 





agate mad_outliers 和 stdev_outliers 


agate group_by 和 aggregate 





使 用 统计 学 模型 和 工具 ， 例 如 标准 差 或 平均 偏差 ， 来 确定 数据 集 
是 否 有 特殊 的 离 群 值 或 不 合适 的 值 

根据 特定 的 属性 对 数据 集 分 组 ， 通 过 运行 聚合 分 析 ， 查 看 在 分 组 
间 是 否 有 明显 的 不 同 之 处 〈 或 相似 之 处 ) 

















在 下 一 章 中 ， 你 会 学 习 如 何 使 用 可 视 化 和 讲 故事 的 工具 来 在 Web 和 其 他 媒介 上 分 享 结论 。 
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展示 数据 





你 已 经 学 习 了 如 何 分 析 数 据 ， 现 在 想 要 展示 它 。 针 对 不 同 听众 ， 演 示 可 能 会 有 很 大 的 差 
别 。 我 们 会 在 这 一 章 学 习 多 种 不 同类 型 的 演示 : 从 简单 的 可 以 在 电脑 上 制作 的 演示 文件 到 
交互 式 的 网 站 。 

取决 于 你 想 要 展示 的 内 容 ， 通 过 图 表 、 地 图 或 图 片 进行 可 视 化 可 能 是 你 尝试 讲 的 故事 中 一 
个 重要 的 部 分 。 我 们 会 学 习 如 何 构建 并 运行 自己 的 站 点 ， 分 享 发 现 。 还 会 介绍 如 何 分 享 
Jupyter notebook， 其 他 人 通过 它 可 以 看 到 你 的 代码 、 图 表 、 图 片 和 结论 。 


首先 ， 我 们 会 探索 如 何 考虑 你 的 听众 ， 开 始 讲述 你 通过 数据 分 析 发 现 的 故事 。 


AD 二 R J 
10.1 避免 讲 故事 陷阱 
讲 故 事 并 不 简单 。 取 诀 于 主题 ， 你 可 能 很 难 从 数据 中 得 出 可 靠 的 结论 。 你 可 能 会 遇 到 不 一 
致 或 不 确定 的 数据 。 这 没关系 。 建 议 你 继续 研究 ， 也 许 在 数据 集中 找到 的 不 同 示例 中 就 缠 
含 着 故事 。 





















































讲 故事 时 所 面临 的 一 些 困难 是 由 数据 分 析 时 的 个 人 偏见 带 来 的 。 正 如 经 济 
学 家 和 记者 Allison Schranger 在 “The Problem with Data Journalism” (http:// 
qz.com/189703/the-problem-with-data-journalism/) 一 文中 讨论 的 ， 我 们 不 可 
避免 地 会 在 分 析 时 带 有 偏见 。 她 的 建议 是 ， 承 认 这 些 偏见 ， 并 试 着 去 了 解数 
据 ， 避 免 为 了 讲 故 事 的 目的 而 去 曲解 它 。 


























不 要 擅自 假定 你 所 要 讲 的 故事 和 数据 是 一 致 的 。 尝 试 先 研 究 数 据 ， 然 后 讲述 数据 研究 所 
得 。 不 要 花 太 多 时 间 来 操作 数据 。 如 果 需 要 大 量 修改 数据 (标准 化 、 归 一 化 和 去 除 离 群 
值 )， 你 可 能 应 该 找 找 其 他 故事 或 不 同 的 数据 。 
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记 住 一 点 ， 讲 故事 是 成 为 领域 专家 的 重要 部 分 。 通 过 研究 数据 掌握 的 信息 有 助 于 你 阐明 
新 的 主题 和 观点 。 理 解 自己 的 偏见 ， 带 着 这 样 谦逊 的 态度 ， 你 的 故事 将 会 有 效 且 具有 局 
发 性 。 


10.1.1 怎样 讲 故事 

确定 你 想 要 讲 的 故事 ， 同 确定 如 何 去 讲 述 它 一 样 重要 。 你 可 以 使 用 图 表 、 图 形 、 时 间 线 、 
地 图 、 视 频 、 文 字 和 交互 式 的 内 容 来 讲述 故事 。 你 可 以 在 网 上 发 布 它 ， 或 者 在 各 种 会 议 中 
演示 它 。 你 可 以 将 它 上 传 到 一 个 视频 分 享 网 站 。 无 论 选 择 什 么 方式 ， 确 保 讲 故事 的 方式 增 
强 了 你 的 发 现 。 没 有 什么 比 看 到 一 个 糟糕 的 展示 更 令 人 诅 趟 了 ， 它 实际 上 抹杀 了 你 试图 讲 
述 的 故事 。 

在 下 面 几 个 小 节 中 ， 我 们 会 评估 你 的 听众 、 你 的 故事 和 可 用 的 平台 是 怎样 影响 演示 选择 
的 。 建 议 你 阅读 所 有 这 些 选 择 ， 即 使 你 已 经 有 了 有 关 展 示 发 现 方式 的 想法 。 这 会 让 你 更 好 
地 理解 可 用 的 选择 ， 即 使 你 坚持 最 初 的 选择 。 对 于 那些 面 对 广 泛 听 众 的 演示 ， 不 同形 式 的 
组 合 可 能 是 最 好 的 选择 。 

确定 你 计划 未 来 多 和 久 更 新 一 次 数据 是 讲 故事 的 另 一 个 部 分 。 是 持续 更 新 吗 ? 你 的 听众 不 久 
之 后 就 能 听 到 更 多 关于 这 个 故事 的 信息 ， 还 是 要 期 待 年 度 报 告 ? 你 是 否 能 够 清楚 地 告诉 他 
们 何 时 及 以 何 种 方式 更 新 ?只 有 你 清楚 听众 的 期 望 ， 让 他 们 等 待 才 是 一 个 不 错 的 想法 。 


10.1.2 了 解 听众 

听众 和 内 容 一 样 重要 。 通 过 识别 目标 听众 ， 你 可 以 确定 他 们 关于 某 个 话题 已 经 知道 什么 ， 
什么 是 他 们 最 感 兴趣 的 内 容 ， 以 及 对 他 们 来 说 效果 最 好 的 学 习 方 式 是 什么 。 如 果 未 能 与 听 
众 有 效 沟 通 ， 那 么 你 创建 的 故事 就 会 设 人 感 兴 

如 果 报 告 或 展示 是 你 工作 的 一 部 分 ， 确 定 听众 应 该 十 分 容易 。 无 论 是 工作 中 的 一 个 小 组 、 
一 个 执行 团队 ， 还 是 一 个 日 报 或 年 刊 ， 你 精确 地 了 解 谁 会 阅读 你 的 报告 。 






































如 果 你 想 向 更 多 人 展示 数据 ， 你 应 该 研究 一 下 已 有 成 果 ， 以 及 哪些 人 想 要 进 
一 步 深入 地 了 解 。 熟 悉 目 标 领域 的 已 有 成 果 会 帮 你 确定 现 有 或 潜在 的 听众 。 





如 果 你 不 确定 目标 听众 ， 一 个 好 的 策略 是 接触 对 该 主题 明显 有 不 同 兴 趣 程度 的 不 同 的 人 ， 
例如 ， 一 位 父辈 或 导师 、 一 位 同事 和 一 名 学 员 〈 从 你 的 展示 和 话题 的 角度 来 看 ) 。 取 决 于 
有 关 话 题 的 知识 水 平 ， 是 否 不 同 的 人 对 故事 中 的 某 一 部 分 更 感 兴趣 ? 是 否 不 同年 龄 和 经 验 
的 听众 会 提出 不 同 的 问题 ?在 讲解 某 个 话题 时 ， 广 意 听 众 的 问题 ， 同 时 观察 他 们 的 反应 ， 
并 基于 这 些 观 察 修正 关于 目标 听众 的 说 明 。 


一 旦 确定 了 目标 昕 众 ， 你 可 以 更 深 入 地 了 解 他 们 。 根 据 听 众 的 不 同 ,使 用 下 面 附 注 栏 中 的 
建议 来 帮助 完善 讲 故事 的 方式 。 
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与 听众 交谈 
当 思 考 如 何 讲述 故事 给 听众 时 ， 搞 明白 他 们 如 何 学 习 和 理解 这 个 世界 ， 特 别 是 你 的 主 
题 ， 这 一 点 很 重要 。 这 些 问题 会 指引 你 讲 故 事 的 过 程 ， 将 发 现 以 最 佳 方式 传达 给 目标 
听众 。 


。 你 的 听众 是 如 何 学 习 新 事物 的 ? 在 线 学 习 ? 口 口 相传 ? 通过 出 版 物 ? 

。 关于 这 个 主题 你 的 听众 有 多 少 先 验 知识 ? 是 否 有 听众 会 感到 陌生 的 单词 或 想法 ? 

。 你 的 听众 能 否 自己 探索 数据 ? 

。 你 的 听众 会 花费 多 少时 间 和 注意 力 听 故 事 ? 

。 在 与 你 或 他 人 谈论 这 个 故事 时 ， 听 众 的 参与 度 如 何 ? 

。 如 果 有 新 的 信息 发 布 ， 你 的 听众 是 否 想 要 被 告知 并 更 新 信息 ? 

这 些 只 是 众多 问题 中 的 一 部 分 ， 你 可 以 通过 这 些 问 题 来 确定 真正 的 听众 ， 以 及 他 们 如 
何 才 能 最 好 地 消化 你 的 故事 。 以 这 些 问 题 为 最 初 的 提示 ， 让 它们 引导 你 找到 更 多 关于 
如 何 分 享 发 现 的 问题 。 














如 有 果 你 找到 了 听众 ， 准 备 好 开始 讲 故 事 了 ， 你 就 可 以 着 手 研究 通过 可 视 化 工具 讲述 数据 故 
事 的 方式 了 。 


10.2 可视化 数据 


处 理 数 据 时 ， 你 可 能 希望 使 用 一 些 可 视 化 工具 来 讲 故 事 。 根 据 故 事 的 不 同 ， 你 的 可 视 化 选 
择 可 能 是 图 表 、 图 片 或 者 时 间 线 。 无 论 你 如 何 展示 数据 ， 第 一 步 是 确定 哪些 可 视 化 数据 是 
有 用 且 相 关 的 。 

在 以 可 视 化 方式 讲 故 事 的 过 程 中 ， 确 定 怎 样 展示 发 现 至 关 重 要 。 正 像 Alberto Cairo 在 其 关 
于 数据 可 视 化 的 博客 文章 (http://www.thefunctionalart.com/2014/08/to-make-visualizations- 
that-are.html) 中 写 道 的 ， 如 果 不 展 示 所 有 相关 的 数据 ， 可 能 会 让 听众 对 你 的 方法 和 发 现 有 
疑问 。 






































这 类 似 于 用 文档 详细 描述 数据 分 析 和 方法 论 ， 我 们 需要 文档 化 和 保护 可 视 化 
探索 和 数据 的 展现 ， 确 保 不 会 遗漏 故事 中 重要 的 部 分 。 





在 这 一 市 中 ， 我 们 会 探索 如 何 使 用 图 表 、 时 间 序 列 、 时 间 线 、 地 图 、 混 合 多 媒体 、 文 字 、 
图 片 和 影音 来 分 享 发 现 。 取 决 于 你 的 听众 ， 可 能 会 有 不 同类 型 的 工具 适用 于 你 的 故事 。 每 
种 类 型 都 有 其 优势 和 缺点 ， 我 们 会 在 探索 的 过 程 中 介绍 这 些 。 


10.2.1 图 表 


图 表 是 分 享 数字 数据 的 良好 方式 ， 尤 其 是 比较 不 同 的 数据 集 或 不 同 的 分 组 时 。 如 有 果 数据 有 
一 个 清晰 的 趋势 ， 或 者 数据 显示 出 特定 的 离 群 值 ， 图 表 会 帮 你 向 听众 展现 这 些 发 现 。 
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你 可 以 使 用 条 形 图 来 并 排 展示 大 量 数据 。 比 如 ， 在 《华盛顿 邮 报 》 关 于 婴儿 死亡 率 的 报道 
(http:Wwww.washingtonpost.comy/blogs/wonkblog/wp/2014/09/29/our-infant-mortality-rate-is-a- 
national-embarrassment/) 中 ，Christopher Ingraham 使 用 了 条 形 图 来 并 排比 较 不 同 国 家 的 婴 
儿 死 亡 率 。 


为 了 展示 随时 间 推 移 的 趋势 ， 人 们 通常 会 使 用 折线 图 。Christopher Ingraham 同样 使 用 了 折 
线 图 来 比较 不 同年 龄 下 的 婴儿 死亡 率 。 通 过 条 形 图 可 以 看 到 ， 美 国 在 婴儿 保护 方面 请 后 于 
其 他 国家 。 折 线 图 可 以 比较 不 同 国家 的 婴儿 死亡 率 随 时 间 变 化 的 情况 ， 让 我 们 从 另外 一 个 
角度 观察 数据 。 


你 会 注意 到 ， 作 者 选择 在 折线 图 上 仅 展 示 少 数 几 个 国家 ， 而 不 是 像 在 条 形 图 上 展示 所 有 的 
国家 。 他 为 什么 做 出 这 样 的 决定 ? 可 能 是 他 检查 了 数据 ， 发 现 包含 更 多 国家 的 数据 会 使 得 
图 表 难 以 阅读 。 

这 些 都 是 可 视 化 发 现时 需要 做 出 的 各 种 决定 。 为 了 确定 什么 样 的 图 表 适 合 你 ， 什 么 类 型 
的 图 表 最 有 用 ， 首 先 定义 你 想 要 通过 图 表 展 示 什 么 。Extreme Presentation 博客 (http:// 
extremepresentation.typepad.com/blog/2006/09/choosing_a_good.html) 上 有 简便 的 流程 图 工 
具 ， 当 你 开始 思考 这 些 问题 时 ， 可 以 从 这 里 开始 。Juice Labs 开发 了 一 个 交互 式 图 表 选 择 
器 (http://labs.juiceanalytics.com/chartchooser)， 展 示 了 一 些 相 同 的 概念 。 


































































































每 个 图 表 都 有 其 优势 和 弱点 。 如 果 你 想 要 展示 关系 ， 可 以 使 用 散 点 图 、 气 泡 
图 或 者 折线 图 ， 所 有 这 些 都 可 以 展示 数据 相关 性 。 条 形 图 更 适合 比较 多 个 对 
象 。 如 果 你 想 要 展示 数据 的 组 成 或 因素 ， 可 以 创建 一 个 堆 羡 条 形 图 。 为 了 展 
示 分 布 ， 你 可 以 使 用 时 序 图 或 者 柱状 图 。 



































让 我 们 考虑 一 下 迄今 为 止 研究 过 的 数据 ， 使 用 一 些 agate 内 置 特性 来 绘制 数据 。 

1. 使 用 matplotlib 绘 制图 表 

Python 的 一 个 主要 图 表 和 图 片 库 是 matplotlib， 可 以 用 来 绘制 数据 集 。 它 是 生成 简单 
图 表 的 很 好 的 方式 ， 你 越 熟 悉 图 表 库 ， 你 的 图 片 和 图 表 会 越 高 级 。 首 先 ， 需 要 运行 pip 
install matplotlib 来 安装 它 。 

让 我 们 展示 政府 腐败 感 得 分 和 童工 雇用 率 的 对 比 ， 下 面 是 代码 。 


import matplotlib.pyplot as plt 
































plt.plot(africa_cpi_cl.columns['CPI 2013 Score ' ] ， 
africa_cpi_cl.columns['Total (%)']) © 


plt.xlabel('CPI Score - 2013') 名 


plt.ylabel('Child Labor Percentage') 
plt.title('CPI & Child Labor Correlation') © 


pLt.show() @ 


@ 使 用 pylab 的 plot 方法 ,传递 x 和 y 的 标签 数据 。 传 递 的 第 一 个 变量 是 x 坐标 系 ， 第 
二 个 变量 是 了 坐标 系 。 这 会 创建 一 个 Python 图 表 ， 绘 制 这 两 个 数据 集 。 
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@ 调用 xlabel 和 ylabel 方法 标记 图 表 坐 标 系 。 

四 调用 title 方法 为 图 表 命名 。 

@ 调用 show 方法 来 绘制 图 表 。 所 有 在 调用 show 之 前 关于 图 表 的 操作 ， 会 显示 在 系统 默认 
的 图 片 程序 中 (例如 Preview 或 Windows 图 片 查看 器 ) 。 标 题 、 坐 标 标 签 和 任何 其 他 通 
过 matplotlib 设置 的 属性 都 会 展示 在 这 个 图 表 中 。 


喔 ! Python 演 染 了 图 10-1 中 的 图 表 。。 
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图 10-1: 童工 和 CPI 图 表 

我 们 能 够 明确 看 到 趋势 是 整体 下 跌 的 ， 但 是 同样 看 到 中 部 的 数据 并 没有 呈现 特定 的 趋势 。 
事实 上 ， 数 据 变化 得 很 剧烈 ， 这 说 明 童工 和 政府 腐败 感 并 不 是 在 所 有 国家 都 有 联系 ， 只 在 
分 国家 有 联系 。 

让 我 们 仅 使 用 情况 最 糟糕 的 国家 的 数据 来 绘制 图 表 。 在 9.2.1 节 中 ， 我 们 已 经 分 离 出 了 这 
些 国家 。 使 用 highest_cpi_cl 表 再 次 运行 前 面 的 代码 ， 会 看 到 图 10-2 中 的 图 表 。 

现在 可 以 看 到 一 个 清晰 的 下 降 趋 势 ， 在 这 些 最 糟糕 的 国家 中 ， 随 着 童工 鹿 用 率 和 政府 腐败 
感 指数 的 下 降 ， 出 现 了 一 些 异 常 。 
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注 1: 如 果 图 表 没 有 展示 出 来 ， 根据 Stack Overflow 上 的 指示 (http://stackoverflow.com/questions/7534453/ 
matplotlib-does-not-show-my-drawings-although-i-call-pyplot-show/7534680#7534680) ， 来 确定 matplotlib 设置 
在 哪里 ， 并 设置 库 的 后 端 为 默认 选项 之 一 Mac/Linux 系统 上 的 QT4Agg 或 Windows 系统 上 的 GTKAgg)。 
对 于 Windows 系统 ， 可 能 同样 需要 运行 pip install pygtk。 
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图 10-2: 高 童工 雇用 率 国家 图 表 


pytLab 中 有 很 多 种 图 表 可 用 ， 包 括 直 方 图 、 散 点 图 、 条 形 图 和 人 饼 形 图 。 强 烈 建议 你 查看 一 下 
matplotlib.org 关于 pyptot 的 介绍 (http://matplotlib.org/1.4.2/users/pyplot_tutorial.html#pyplot- 
tutorial) ， 包 括 如 何 改变 图 表 的 不 同属 性 (颜色 、 标 签 、 大 小 ) ， 使 用 多 图 、 子 区 (subplot) 
和 更 多 图 表 类 型 。 


























图 表 化 数据 便于 发 现 数据 集中 的 异常 或 离 群 值 。 使 用 Python 图 表 库 中 各 种 可 
用 的 图 表 方 法 ， 可 以 帮 你 研究 数据 中 的 故事 和 关系 。 














越 多 地 使 用 库 的 图 表 工 具 集 ， 理 解 哪 个 图 表 最 适合 你 的 数据 集 就 越 容易 。 


2. 使 用 Bokeh 绘 图 

Bokeh (http://bokeh.pydata.org/) 是 一 个 Python 绘图 库 ， 能 够 用 相当 简单 的 命令 来 绘制 更 
复杂 的 图 表 类 型 。 如 果 想 要 创建 一 个 条 形 图 、 散 点 图 或 时 间 序 列 图 ， 尝 试 Bokeh， 看 看 是 

否 合适 。 让 我 们 尝试 使 用 Boken， 基 于 各 国家 创建 一 个 CPI 和 童工 数据 的 散 点 图 。 运 行 下 

面 的 命令 安装 Bokeh。 


pip install bokeh 


之 后 利用 agate 表 使 用 一 些 简单 的 命令 创建 散 点 图 : 


from bokeh.plotting import figure, show, output_ file 


















































def scatter_point(chart, x, y, marker_type): © 
chart.scatter(x, y, marker=marker_type, line_color="#6666ee", 
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fill_color="#ee6666", fill_alpha=0.7, size=10) @ 


chart = figure(title="Perceived Corruption and Child Labor in Africa") © 
output_file("scatter_plot.html") @ 
for row in africa_cpi_cl.rows: 
scatter_point(chart, float(row['CPI 2013 Score']), 
float(row['Total (%)']), 'circle'’) 加 


show(chart) @ 


@ 定义 一 个 国 数 ，scatter_point， 接 受 一 个 图 表 、x 轴 和 yy 轴 值 、 标 记 的 类 型 ( 圆 形 、 正 
方形 、 和 矩形 )， 并 且 添 加 这 些 点 到 图 表 中 。 

@ 图 表 的 scatter 方法 需要 两 个 必需 的 参数 (x 轴 和 y 轴 ) 和 一 些 不 同 的 关键 参数 ， 为 这 
些 点 添加 样式 〈 包 括 颜 色 、 透 明度 、 大 小 ) 。 这 行 代码 传递 了 边缘 颜色 和 填充 颜色 以 及 
大 小 和 透明 度 到 函数 中 。 

四 使 用 函数 figure 创建 图 表 ， 同 时 传人 一 个 标题 。 

@ 使 用 函数 output_file 定义 输出 的 文件 。 这 会 在 你 运行 代码 的 文件 夹 下 创建 文件 scatter_ 
plot.html。 

日 对 于 每 一 行 数据 ， 使 用 CPI 得 分 作为 x 轴 ， 童 工 座 用 率 作为 y 轴 ， 添 加 一 个 数据 点 。 

@ 在 浏览 器 窗口 中 展示 这 张 图 表 。 


当 你 运行 这 段 代 码 ， 它 会 在 浏览 器 中 打开 一 个 窗口 ， 展 示 这 张 图 表 ( 见 图 10-3)。 
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图 10-3， CPI 和 童工 散 点 图 
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非常 好 ， 但 是 我 们 看 不 出 这 些 点 的 含义 。Bokeh 可 以 添加 交互 元 素 到 图 表 中 。 让 我 
们 添加 一 些 试 试 。 


from bokeh.plotting import ColumnDataSource, figure, show, output_file 
from bokeh.models import HoverTool O@ 


TOOLS = 


"pan,reset,hover" @ 


def scatter_point(chart, x, y, source, marker_type): © 
chart.scatter(x, y, source=source, 


chart = 


marker=marker_type, line color="#6666ee", 
fill_color="#ee6666", fill_alpha=0.7, size=10) 


figure(title="Perceived Corruption and Child Labor in Africa", 
tooLs=T00LS) @ 


output_file("scatter_int_ plot.html") 
for row in africa_cpi_cl.rows: 
column_source = COoLumnDataSource( 


data={'country': [row['Country / Territory']]}) © 


scatter_point(chart, float(row['CPI 2013 Score']), 


float(row['Total (%)']), column source, 'circle') 


hover = chart.select(dict(type=HoverTo00l)) @ 


hover .tooLtips = [ 

("Country", "@country"), @ 
("CPI Score", "$x"), 
("Child Labor (%)", "$y"), 


] 


show(chart) 


@ 导入 我 们 用 过 的 主要 的 库 ， 并 导入 ColumnDataSource 和 HoverTool 类 。 

@ 为 最 终 的 图 表 定 义 你 想 要 使 用 的 工具 (http://bokeh.pydata.org/en/latest/docs/user_guide/ 
tools.html#specifying- tools)。 这 行 代码 添加 了 hover， 所 以 可 以 使 用 基 停 方法 。 

四 把 source 添加 到 必需 的 参数 中 。 这 会 存储 国家 名 称 信息 。 

@ 传递 T00LS 变量 到 图 片 初 始 化 函数 中 。 


加 





























变量 coLumn_source 现在 保存 着 一 个 数据 源 字 典 ， 其 中 是 国家 名 称 。 这 一 行 代 码 将 国家 











名 称 作为 列表 传递 ， 因 为 字典 的 值 必须 是 一 个 可 迭代 对 象 。 

@ 从 图 表 中 选择 HoverTool 对 象 。 

包 使 用 悬 停 对 象 的 tooltips 方法 ， 展 示 不 同 的 数据 属性 。@country 选择 了 通过 列 数据 源 
传人 的 数据 ， 而 $x 和 $y 选择 图 表 中 x 和 y 数据 点 。 


























现在 你 的 图 表 应 该 看 起 来 类 似 于 图 10-4。 
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非洲 的 政府 腐败 感 和 童工 雇用 率 

















图 10-4: CPI 和 童工 交互 散 点 图 


随 着 你 移动 游标 到 每 一 个 点 ,x 和 y 的 数据 会 随 之 变化 。 为 了 优化 这 个 图 
表 ， 可 以 通过 输入 新 的 键 值 对 到 data 字典 中 ， 添 加 精确 的 数据 点 到 column_ 
source 对 象 中 。 


Bokeh 有 一 个 很 好 的 示例 库 (http://bokeh.pydata.org/en/latest/docs/gallery.html) 和 可 用 的 代 
码 来 帮助 你 上 手 。 建 议 你 花 些 时 间 在 图 表 上 ， 堂 试 一 下 Bokeh。 


10.2.2 ”时 间 相 关 数 据 

时 间 序 列 和 时 间 线 数据 展示 随时 间 推 移 的 发 现 。 时 序 图 表 展 示 数 据 随 时 间 的 变化 (通常 表 
现 为 折线 图 、 柱 状 图 或 直方 图 )。 时 间 线 允许 你 通过 标记 随 着 时 间 推 移 发 生 的 活动 、 事 件 
和 变化 来 直观 地 讲述 数据 的 故事 。 

1. 时 间 序 列 数 据 

时 间 序 列 展示 随时 间 推 移 产 生 的 趋势 ， 尤 其 是 当 聚 焦 于 一 个 因素 时 十 分 有 效 。《 华 尔 街 日 
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报 》 发 布 过 一 个 非常 棒 的 关于 疫苗 和 发 病 率 的 时 间 序 列 (http://graphics.wsj.com/infectious- 
diseases-and-vaccines/) 。 交 互 元 素 人 允许 你 进行 探索 , 内 置 的 延 时 移动 画 创造 了 一 个 易 读 的 画 
面 。 疫 苗 引进 标记 也 增加 了 阅读 的 清晰 度 。 

我 们 还 没有 研究 数据 集 随 时 间 推 移 的 变化 。 下 一 步 操作 最 好 是 收集 过 去 几 年 的 数据 集 。 这 
些 数 据 可 以 回答 类 似 于 这 样 的 问题 ， 随 时间 推移 什么 地 方 的 童工 数量 在 增长 ?是 否 能 够 看 
到 随时 间 推 移 的 一 个 明显 的 地 区 趋势 9 当 合 并 另 一 个 数据 集 ， 是 否 能 够 看 到 其 他 的 趋势 
(例如 ， 童 工 雇用 数量 是 否 伴随 农业 出 口 增长 ) ? 


在 Stack Overflow (http://stackoverflow.com/questions/19079143/how-to-plot-time-series-in- 
python) 上 有 一 个 很 好 的 回答 ， 提 供 了 更 多 的 关于 使 用 matplotlib 来 绘制 时 间 序 列 数据 图 
表 的 信息 。 还 记得 在 第 9 章 中 agate 表 的 rows 和 coLumns 方法 可 以 用 来 选择 一 列 或 者 一 行 
的 数据 吗 ? 这 两 个 方法 返回 的 列表 可 以 被 传人 任何 matplotltib 函数 ， 把 数据 传 信 到 图 表 
中 。 


如 果 你 想 要 了 解 如 何 使 用 Bokeh 处 理 时 间 相 关 数 据 ， 可 以 查看 它们 很 棒 的 实例 (http:/ 
bokeh.pydata.org/en/latest/docs/user_guide/charts.html#timeseries ) 。 

2. 时 间 线 数据 

时 间 线 数据 可 以 帮助 你 向 听众 介绍 某 主题 历史 中 重要 的 时 刻 ， 或 者 最 近 发 展 中 的 转折 。 例 
如 ， 疫 苗 历 史 网 站 (History of Vaccines，http:/www.historyofvaccines.org/contenttimelines/ 
measles) 中 的 时 间 线 展示 了 加 利 福 尼 亚麻 疹 疫 苗 的 历史 和 最 近 发 展 ， 这 样 听众 可 以 通过 历 
史 数 据 快 速 地 理解 主题 。 

如 果 想 要 展示 童工 历史 信息 的 时 间 线 ， 我 们 会 去 查找 全 世界 童工 历史 中 重要 的 时 刻 。 我 们 
可 以 去 研究 帮助 引出 时 间 线 上 事件 的 问题 ， 例 如 : 第 一 部 保护 儿童 安全 的 法 律 是 什么 时 候 
实施 的 ?什么 时 候 公众 意见 开始 反对 童工 座 用 ?有 哪些 与 童工 有 关 的 公众 事件 和 丑闻 ? 

对 于 可 视 化 数据 来 说 ，Knight 实验 室 的 TimelineJS (http://timeline.knightlab.com/) 可 以 接 
受 一 个 数据 表单 ， 创 建 一 个 简单 的 交互 式 时 间 线 。 


10.2.3 地 图 


如 果 你 的 发 现 聚焦 于 地 理 信息 ， 地 图 是 展示 数据 的 很 好 的 方式 。 地 图 能 帮助 人 们 意识 到 某 
主题 对 他 们 了 解 的 人 群 和 地 区 的 影响 。 根 据 听众 对 所 讨论 地 区 的 了 解 程度 ， 你 可 能 需要 在 
地 图 中 包含 额外 的 信息 和 上 下 文 ， 便 于 将 故事 与 听众 更 熟悉 的 区 域 相 关联 。 

如 果 是 本 地 听众 ， 你 可 能 要 提 到 本 地 知名 的 纪念 物 和 街道 名 称 。 如 果 是 国际 听众 ， 并 且 故 
事 涉及 一 个 特定 的 区 域 〈 例 如 ， 亚 马 逊 森林 砍伐 )， 则 首先 引用 大 洲 地 图 ， 之 后 再 聚焦 于 
你 的 目标 区 域 。 


地 图 是 数据 可 视 化 中 很 难 的 一 种 形式 。 不 仅 你 要 了 解 听众 的 地 理 知 识 ， 而 且 
地 图 并 不 总 能 用 清晰 易 理 解 的 方式 展示 趋势 。 当 使 用 地 图 时 ， 对 展示 区 域 的 
地 理 知识 非常 熟悉 是 很 重要 的 ， 你 需要 展示 重要 的 地 理 元 素 ， 让 听众 确定 位 
置 ， 同 时 展示 发 现 。 
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一 个 有 新 闻 价 值 的 地 图 的 实例 是 《纽约 时 报 》 的 加 州 疫苗 接种 地 图 (http://www.nytimes. 
com/interactive/2015/02/06/us/california-measles-vaccines-map.html?_r=1)。 该 地 图 在 加 州 最 
近 的 麻疹 疫情 爆发 期 间 发 布 ， 读 者 可 以 放大 和 缩小 来 查看 更 多 信息 ， 且 该 地 图 提供 了 简短 
的 描述 ， 展 示 了 个 人 意愿 和 其 他 造成 低 接种 率 的 原因 〈 例 如 贫穷 或 者 缺少 接触 ) 之 间 的 不 
同 。 通 过 仅仅 聚焦 于 加 利 福 尼 亚 ， 该 地 图 能 够 展示 足够 详细 的 细节 ， 而 如 果 是 以 国家 或 者 
地 区 为 维度 的 话 ， 可 能 会 大 杂乱 或 者 复杂 了 。 






































准备 地 图 时 ， 你 可 能 想 要 利用 ColorBrewer (http:/Wcolorbrewer2.org/) ， 这 个 
工具 可 以 并 排比 较 不 同 的 地 图 颜色 方案 。 你 希望 颜色 不 仅 能 讲述 故事 ， 而且 
有 对 比 性 ， 这 样 读者 可 以 清晰 地 看 到 组 和 组 之 间 的 区 别 。 


一 个 更 大 地 理 区 域 的 地 图 实例 是 《经 济 学 人 》 厅 志 的 全 球 债务 钟 (http:/www.economist. 
com/content/global_debt_clock)。 这 个 地 图 展示 了 各 个 国家 的 公共 债务 情况 ， 使 用 了 一 个 交 
互 时 间 线 来 展示 随时 间 推移 公债 的 变化 情况 。 其 互补 的 颜色 方案 使 得 地 图 很 容易 阅读 ， 人 
们 可 以 很 容易 地 分 辨 负债 很 重 的 国家 和 负债 很 少 或 者 没有 债务 的 国家 。 















































全 球 债务 钟 地 图 (the global debt clock map) 的 作者 标准 化 了 债务 度量 ， 使 用 
美元 作为 标准 的 展示 单位 ， 所 以 用 户 可 以 并 排 地 比较 不 同 国家 的 债务 率 。 这 
一 很 小 的 标准 化 有 助 于 听众 理解 并 增强 了 这 些 发 现 的 影响 。 









































有 一 个 很 容易 使 用 的 图 表 和 地 图 Python 库 ，pygatL (http://pygal.org/)， 它 拥有 很 好 的 内 置 
地 图 特性 。pygal 有 从 饼 状 图 、 散 点 图 到 世界 和 国家 地 图 详细 的 文档 。 可 以 同时 使 用 pygal 
和 agate 表 来 展示 世界 范围 内 的 童工 雇用 率 。 首 先 需要 通过 运行 下 面 的 命令 安装 库 和 其 依赖 。 


pip instaLL pygal 

pip install pygal_maps_world 
pip install cssselect 

pip install cairosvg 

pip install tinycss 

pip install LxmL 





在 pygaL 世 界 地 


























图 文 档 (http://www.pygal.org/en/latest/documentation/types/maps/pygal_ 


maps_world.html?highlight=world) 中 ， 可 以 看 到 每 个 国家 的 双 字 符 ISO 编码 是 使 用 世界 地 





import json 


图 所 必需 的 。 使 用 之 前 的 方法 添加 这 些 编码 到 ranked 表 : 





country_codes = json.loads(open('iso-2.json', 'rb').read()) ©O 
country_dict = {} 


for c in country_codes: 
country_dict[c.get('name')] = c.get('alpha-2') © 


def get_country_code(row): 
return country_dict.get(row['Countries and areas']) © 


ranked = ranked.compute([('country_code', 
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agate.FormuLa(text_type，get_country_code))，]) 


for r in ranked.where(Lambda x: x.get('country_code') is None).rows: @ 
print r['Countries and areas'] 


@ 加 载 从 GitHub 用 户 @lukes 仓库 (https://github.com/lukes/ISO-3166-Countries-with-Regional- 
Codes) 中 下 载 的 文件 iso-2.json 中 的 字符 串 。 这 一 文件 在 本 书 仓库 中 也 可 找到 。 

@ 创建 国家 字典 ， 键 是 国家 名 称 ， 值 是 ISO 编码 。 

四 定义 新 的 函数 get_country_code， 接 受 一 行 数 据 ， 使 用 country_dict 返回 国家 编码 。 如 
果 没 有 对 应 键 ， 返 回 None。 

@ 查看 没有 匹配 到 的 数据 ， 做 进一步 的 研究 。 


你 应 该 看 到 类 似 下 面 的 输出 。 


Bolivia (Plurinational State of ) 

Cabo Verde 

Democratic Republic of the Congo 

Iran (Islamic Republic of) 

Republic of Moldova 

State of Palestine 

The former Yugoslav Republic of Macedonia 
United Republic of Tanzania 

Venezuela (Bolivarian Republic of) 


我 们 发 现 大 多 数 数 据 均 匹配 ， 但 是 有 几 个 漏 掉 的 。 如 在 前 一 章 中 处 理 earth.json 一 样 ， 通 
过 修改 数据 文件 中 不 匹配 国家 的 名 称 手动 修正 这 个 问题 。 清 洗 后 的 文件 ，iso-2-cleaned. 
json， 同 样 可 以 在 仓库 中 找到 。 现 在 可 以 用 新 的 、 清 洗 后 的 JSON 文件 同 之 前 的 代码 一 起 
创建 一 个 完整 的 表 。 注 意 ， 你 需要 重 命名 列 或 者 使 用 新 的 列 名 称 contry_code_complete， 
这 样 不 会 出 现 重复 列 名 称 的 问题 。 我 们 会 利用 这 张 表 ， 使 用 pygal 地 图 方法 创建 自己 的 世 
界 地 图 。 


import pygal 
















































































worldmap_chart = pygal.maps.world.World() © 
worldmap_chart.title = 'Child Labor NorLdwide' 


Cl dteta ({} 
for r in ranked.rows: 
cl_dict[r.get('country_code complete').lower()] = r.get('Total (%)') @ 


worldmap_chart.add('Total Child Labor (%)', cl_dict) © 
worLdmap_chart.render() @ 


@ pygal 库 中 map.world 模块 的 World 类 返回 地 图 对 象 。 

@ cl_dict 保存 着 一 个 字典 ， 键 是 国家 编码 ， 值 是 童工 百分比 。 

四 根据 pygal 的 文档 ， 这 行 代码 传递 数据 的 标签 和 数据 字典 到 函数 中 。 
@ 调用 地 图 的 render 方法 来 展示 地 图 。 


可 以 看 到 render 将 .svg 文件 以 一 个 很 长 很 复杂 的 字符 串 输 出 到 终端 。 如 果 想 要 保存 它 到 
一 个 文件 ， 需 要 调用 一 个 不 同 的 方法 。pygal 提供 了 几 个 选项 ， 对 应 不 同 的 文件 类 型 : 
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worldmap_chart.render_to_file( 'world_map.svg') 


worldmap_chart.render_to_png('world_map.png') 


现在 打开 .svg 或 .png， 会 看 到 图 10-5。 

















世界 范围 的 童工 雇用 情况 











mm 














图 10-5: 世界 地 图 


如 果 在 泻 染 地 图 时 有 任何 的 问题 ， 确 保 所 有 的 依赖 库 已 经 安装 。 如 果 电 脑 上 
没有 .svg 文件 查看 器 ， 你 可 以 在 浏览 器 中 打开 .svg 文件 ， 像 图 10-5 一 样 。 











强烈 建议 你 查看 除 .svg 之 外 pygal 提供 的 其 他 选项 。 文 档 中 有 很 多 实例 ， 高 级 的 和 简单 的 
都 有 ， 对 初学 者 来 说 ， 它 也 是 一 个 很 容易 使 用 的 .svg 库 。 


10.2.4 ”交互 式 元 素 

交互 式 元 素 通过 网 站 交互 或 模拟 讲 故 事 。 因 为 用 户 可 以 通过 浏览 器 四 处 点 击 和 探索 ， 所 以 
他 们 可 以 以 自己 的 节奏 了 解 这 个 主题 ， 从 数据 中 得 出 自己 的 结论 。 这 对 于 需要 更 加 深入 研 
究 才 能 充分 理解 的 主题 特别 有 用 。 

作为 对 最 近 在 美国 麻疹 疫情 爆发 的 回应 ， 英 国 《 卫 报 》 制 作 了 一 个 疫情 爆发 交互 式 网 
页 (https://www.theguardian.com/society/ng-interactive/2015/feb/05/-sp-watch-how-measles- 
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outbreak-spreads-when-kids-get-vaccinated)， 人 允许 用 户 查 看 和 回放 拥有 不 同 疫苗 接种 率 的 各 
地 区 爆发 潜在 麻疹 疫情 的 影响 。 这 个 交互 式 网 页 展示 了 《 卫 报 》 工 作 人 员 研 究 和 编码 的 不 
同 场景 。 不 是 每 一 种 模拟 都 得 到 相同 的 输出 ， 用 户 可 以 看 到 有 一 个 展示 接种 率 的 控件 ， 并 
且 同 时 展示 了 患 病 概率 ( 即 ， 更 高 的 疫苗 接种 率 会 有 更 小 的 感染 可 能 )。 这 个 网 页 使 用 了 
一 个 高 度 政治 化 的 主题 ， 并 且 使 用 疫情 爆发 的 统计 学 模型 呈现 出 了 真实 世界 的 场景 。 

尽管 交互 式 元 素 需 要 更 多 的 经 验 来 创建 ， 并 且 经 常 需要 更 高 的 编码 技能 ， 但 它们 是 非常 棒 
的 工具 ， 特 别 是 当 你 有 前 端 编码 经 验 的 时 候 。 

举 个 例子 ， 对 于 童工 数据 ， 可 以 创建 一 个 交互 式 页 面 ， 用 于 展示 在 乍得 本 地 高 中 ， 有 多 少 
人 由 于 童工 雇用 率 而 可 能 永远 不 会 毕业 。 另 一 个 交互 式 页 面 可 以 展示 当地 商场 中 利用 童工 
生产 或 提供 的 商品 和 服务 。 交 互 式 元 素 将 难以 可 视 化 的 信息 展示 给 受众 ， 这 样 他 们 可 以 理 
解数 据 ， 与 你 的 故事 建立 联系 。 












































10.2.5 文字 

通过 文字 讲 故 事 ， 对 作者 和 记者 来 说 是 非常 自然 的 。 无 论 你 使 用 哪 一 种 视觉 方式 ， 使 用 的 
所 有 文字 对 目标 听众 应 该 有 用 且 合 适 。 你 可 能 想 要 采访 该 领域 的 专家 ， 或 同 他 们 交谈 。 引 
用 他 们 关于 该 发 现 的 语言 、 想 法 和 结论 ， 会 帮助 听众 综合 这 些 信息 。 

如 果 正 在 研究 一 个 本 地 的 学 校 董事 会 是 如 何 确定 下 一 个 学 年 的 预算 的 ， 你 可 以 同 董 事 会 成 
员 谈 话 ， 或 许 还 能 得 到 有 关 提 议 修改 的 内 部 信息 。 如 果 正 在 研究 公司 准备 发 布 的 新 产品 ， 
你 可 能 想 要 同一 些 关 键 决 策 者 谈话 ， 确 定 可 能 会 有 什么 新 产品 。 

如 果 想 获得 更 多 关于 访谈 以 及 如 何 使 用 引言 来 完善 故事 的 内 容 ，Poynter 针对 如 何 成 为 一 
名 更 好 的 访谈 者 提出 了 一 些 很 棒 的 建议 (http://www.poynter.org/2013/how-journalists-can- 
become-better-interviewers/205518/) ,哥伦比亚 大 学 的 访谈 准则 (http://www.columbia.edu/itc/ 
journalism/isaacs/edit/MencherIntv1.html) 分 享 了 一 些 关 于 如 何 准备 访谈 以 及 如 何 根据 项 目 
需要 准备 不 同 的 访谈 的 建议 。 


如 果 你 是 一 个 领域 的 专家 ， 使 用 了 一 些 技术 或 不 熟悉 的 术语 ， 依 照 听众 的 情 
况 ， 你 可 能 需要 将 这 些 主题 分 解 为 一 个 个 小 块 。 一 个 简单 的 术语 表 会 很 有 
用 。 对 于 科学 、 技 术 和 医疗 著作 ， 当 它们 面向 的 是 更 广泛 的 读者 时 ， 使 用 术 
语 表 是 非常 普遍 的 做 法 。 














10.2.6 ” 图片、 视频 和 插画 


如 果 你 的 故事 有 一 个 很 强 的 视觉 元 素 ， 图 片 和 视频 可 以 增强 这 个 故事 。 例 如 ， 与 主题 相 
关 人 物 的 视频 访谈 可 以 展示 数据 的 个 人 立场 ， 并 且 可 能 揭 开 了 研究 中 其 他 的 视角 或 未 来 
的 方向 。 
和 视频 一 样 ， 图 像 可 以 为 观众 摘 绘 画面 。 根 据 我 们 的 经 验 ， 使 用 图 形 图 像 来 描绘 战争 或 其 
他 可 怕 的 事情 ， 总 会 影响 我 们 对 故事 的 解释 。 但 是 ， 使 用 图 片 来 简单 地 震撼 观众 会 导致 他 
们 忽略 你 为 工作 所 做 的 细致 研究 。 思 考 一 下 这 一 点 ， 为 你 的 故事 找到 一 个 平衡 点 。 
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如 果 你 无 法 获得 与 主题 相关 的 照片 或 者 没有 能 力 自 己 收集 ， 可 以 用 插画 讲 故 事 。《 华 盛 顿 
邮 报 》 一 篇 关于 健康 与 不 健康 办 公 作 空间 的 报道 (http://www.washingtonpost.com/wp-srv/ 
special/health/unhealthy-vs-healthy-office/)， 使 用 了 一 张 插 画 来 展示 故事 的 概念 。 


对 于 童工 数据 来 说， 我 们 不 大 可 能 有 机 会 自己 收集 在 数据 分 析 中 发 现 的 罪行 的 视频 和 照 
片 。 然 而 ， 我 们 可 以 使 用 过 去 关于 童工 报道 的 图 片 〈 在 经 过 侈 许 并 说 明 来 源 的 情况 下 )， 
来 揭示 儿童 仍然 遭受 着 这 个 世界 性 问题 的 影响 。 


10.3 展示 工具 


如 果 你 不 想 发 布 数据 ， 但 是 想 将 其 展示 给 一 小 群 人 (或 内 部 人 员 )， 创 建 一 个 幻灯 片 相对 
更 简单 一 些 。 在 展示 数据 有 很 多 方式 可 选 时 ， 你 可 以 创建 一 个 灵活 的 幻灯 片 ， 而 不 需要 做 
太 多 额外 的 工作 。 


一 个 拥有 很 高 评价 的 幻灯 片 制 作 工 具 是 Prezi (https://prezi.com/)， 它 可 以 创建 看 起 来 很 专 
业 的 幻灯 片 。Prezi 让 你 能 够 创建 公共 可 用 的 幻灯 片 ， 而 且 它 有 多 种 不 同 的 桌面 客户 端 (如 
果 你 想 要 创建 私密 幻灯 片 ， 需 要 注册 一 个 付费 账户 )。Haiku Deck (https://www.haikudeck. 
com/) 是 另 一 个 只 可 在 线 使 用 的 网 站 工具 ， 可 以 免费 制作 公开 的 幻灯 片 ， 付 费 制 作 私密 的 
幻灯 片 。 你 还 可 以 将 Google Slides 作为 一 个 免费 且 简 单 的 选择 ， 特 别 是 当 你 准备 给 内 部 人 
员 演 示 并 且 你 的 公司 也 使 用 Google Apps 的 时 候 。 


10.4 发 布 数据 


你 已 经 花费 了 时 间 研 究 、 探 索 和 展示 数据 ， 现 在 想 要 通过 网 络 分 享 报告 给 全 世界 。 当 你 准 
备 在 网 络 上 发 布 数据 时 ， 首 先 应 该 确定 数据 是 否 能 够 被 公开 访问 。 









































如 果 你 的 展示 包含 私密 的 数据 或 者 数据 只 与 你 的 公司 相关 (专利 数据 )， 你 
应 该 在 一 个 受 密码 保护 的 网 站 上 发 布 它 ， 或 者 在 内 网 发 布 。 








如 有 果 你 想 要 和 世界 分 享 数据 ， 通 过 诸多 网 络 平 台 之 一 来 发 布 不 会 有 问题 。 在 这 一 节 里 ， 我 
们 会 介绍 如 何在 易于 使 用 的 免费 博客 平台 或 者 你 自己 的 网 站 上 发 布 数据 。 


10.4.1 使 用 可 用 站 点 

许多 网 站 被 设计 用 来 发 布 数据 ， 以 迎合 类 似 你 这 样 的 想 要 分 享 报告 或 想法 并 将 它们 简单 地 
发 布 到 网 络 上 的 作者 和 研究 者 。 下 面 是 一 些 较 好 的 选择 。 

1. Medium 

在 Medium (https://medium.com/) 上 ， 你 可 以 创建 一 个 帐户， 开始 写 自 己 的 文章 ， 轻 松 地 
代入 评论 、 引 用 、 图 片 和 图 表 。 因 为 这 是 一 个 社交 媒体 平台 ， 所 以 其 他 的 Medium 用 户 可 
以 推荐 你 的 文章 ， 分 享 它 ， 标 记 它 ， 同 时 关注 你 之 后 的 文章 。 
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使 用 一 个 类 似 Medium 的 托管 站 点 让 你 能 够 专注 于 写作 和 报告 ， 不 用 花 时 间 
去 琢磨 如 何 搭建 和 维护 你 自己 的 网 站 。 











Medium 团队 维护 了 一 些 很 好 的 图 表 工 具 ， 包 括 Charted.co (https://github.com/mikesall/ 
charted)， 它 使 用 简单 的 CSV 或 TSV 文件 来 泻 染 一 个 交互 图 表 。 在 写作 本 书 时 ， 它 们 还 没 
有 实现 直接 嵌入 这 些 图 表 到 文章 中 的 能 力 ， 但 是 很 有 可 能 会 添加 这 个 功能 。 

Medium 使 得 将 不 同 种 类 的 社交 媒体 、 视 频 、 照 片 和 其 他 媒介 筷 入 文章 很 容易 (https:// 
medium.com/@Medium/embed-videos-tweets-music-and-more-into-your-medium-stories- 
3b5c09c116e8#.w5e3j4n9v)。 你 可 以 通过 阅读 Medium 每 月 最 受 欢 迎 的 文章 (https:/ 
medium.com/top-100/) 来 获得 很 多 很 棒 的 关于 讲 故事 的 想法 。 


























建议 阅读 和 搜索 你 主题 领域 的 Medium 博文 ， 同 这 一 主题 的 其 他 作者 联系 ， 
来 了 解 他 们 是 如 何 讲 故事 的 。 





Medium 是 在 社交 网 络 上 写作 并 将 你 的 想法 分 享 给 世界 的 很 好 方式 。 但 是 如 果 你 想 要 运行 
自己 的 博客 呢 ? 继续 阅读 下 面 关 于 搭建 和 运行 网 站 的 选择 。 

2. 快速 上 手 的 网 站 : WordPress、Squarespace 

如 果 想 要 对 布局 和 内 容 有 更 多 的 控制 ， 你 可 以 在 Squarespace (http://www.squarespace. 
com/) 或 WordPress (https://wordpress.com/) 上 搭建 自己 的 博客 。 这 两 个 平台 给 了 你 一 个 
免费 (WordPress) 或 者 廉价 (Squarespace) 的 被 维护 的 站 点 ， 让 你 可 以 自 定 义 站 点 的 外 观 
和 风格 。 你 可 以 设置 一 个 域名 ， 这 样 你 的 文章 会 挂 载 在 自己 的 URL 下 。 


大 多 数 虚 拟 主机 提供 商 为 WordPress 开发 了 一 键 安装 版 本 供 你 使 用 。 你 需要 选择 一 个 用 户 
名 和 一 些 站 点 标题 ， 并 且 确 保有 一 个 足够 强大 和 安全 的 密码 。 在 WordPress 里 ， 你 有 很 多 
主题 (https://wordpress.org/themes/browse/popular/) 和 插件 (https://wordpress.org/plugins/ 
browse/popular/) 可 以 选择 ,来 自 定义 网 站 的 样式 、 风 格 和 功能 。 为 了 保护 站 点 ， 建 议 你 
安装 一 个 流行 的 安全 插件 ， 并 阅读 WordPress 关于 安全 的 建议 (http://codex.wordpress.org/ 
Hardening_WordPress ) 。 


使 用 Squarespace， 只 需要 注册 一 个 账户 ， 选 择 一 个 布局 。 你 可 以 自 定义 相关 联 的 社交 媒 
体 、 域 名 ,以 及 你 是 否 想 要 有 一 个 电 商 店铺 。 
一 旦 站 点 就 绪 ， 并 且 运 行 起 来 ， 添 加 内 容 是 非常 简单 的 。 你 会 想 要 发 布 新 的 页 面 或 文章 ， 
使 用 内 置 的 编辑 器 添加 文字 和 图 片 (或 者 ， 如 果 你 正在 使 用 WordPress， 可 以 安装 额外 的 
编辑 器 插件 ， 支 持 更 多 的 特性 )， 之 后 发 布 内 容 。 





















































你 可 以 让 文章 更 容易 被 找到 ， 方 法 是 通过 SEO 花费 一 些 时 间 来 填充 描述 和 关 
键 词 ， 来 提高 文章 的 可 见 度 。WordPress 插件 和 Squarespace 特性 可 以 为 每 篇 
文章 做 到 这 些 。 
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3. 自 有 博客 

如 果 你 运行 着 自己 的 网 站 或 博客 ， 你 已 经 有 了 一 个 很 棒 的 分 享 报告 的 平台 。 你 需要 确保 可 
以 适当 地 将 视觉 故事 典 入 到 网 站 中 。 生 成 的 大 多 数 图 表 可 以 很 容易 地 嵌入 到 网 站 的 HTML 
代码 中 。 

如 果 你 在 使 用 除了 WordPress 或 Squarespace 以 外 的 其 他 平台 ， 可 能 需要 研究 在 站 点 上 如 何 
分 享 图 表 、 视 频 和 照片 。 建 议 你 联系 平台 的 社区 或 创建 者 ， 或 者 阅读 站 点 的 指引 和 文档 ， 
来 确定 如 何 最 好 地 竹 入 图 片 、 图 表 和 交互 式 元 素 。 


10.4.2 开源 平台 : 创建 一 个 新 网 站 


我 们 已 经 提 到 了 几 个 使 用 Squarespace 和 WordPress 等 免费 或 廉价 平台 创建 和 运行 新 站 点 的 
选项 ， 但 是 如 果 你 想 要 启动 、 运 行 和 维护 自己 的 站 点 ， 可 以 从 众多 伟大 的 开源 平台 中 选择 


人 



































1. Ghost 

Ghost 是 一 个 很 容易 运行 的 平台 (https://github.com/tryghost/Ghost)。Ghost 使 用 Node.js 
(https:Wnodejs.org/) ， 一 个 开源 的 JavaScript 异步 服务 器 ， 如 果 你 对 JavaScript 很 感 兴趣 ， 
使 用 和 学 习 它 都 很 有 趣 。 因 为 它 是 异步 的 ， 所 以 拥有 很 好 的 性 能 ， 能 够 处 理 大 量 的 请 求 。 
Ghost 还 提供 了 搭建 托管 站 点 的 能 力 (https://ghost.org/)， 与 WordPress 或 Squarespace 类 
似 ， 收 取 一 定 的 费用 。 


如 果 你 想 要 挂 载 自己 的 Ghost 博客 ，DigitalOcean 和 Ghost 合作 提供 了 一 个 容易 使 用 和 安装 
的 服务 器 镜像 (https:Wwww.digitalocean.com/community/tutorials/how-to-use-the-digitalocean- 
ghost-application) ， 不 用 一 个 小 时 就 可 在 你 的 服务 器 上 创建 和 运行 Ghost 站 点 。 如 果 这 是 你 
第 一 次 搭建 服务 器 ， 强 烈 建 议 使 用 这 个 方式 ， 因 为 一 些 初始 的 工作 已 经 蔡 你 完成 。 

如 果 你 有 自己 的 服务 器 ， 并 且 想 要 在 其 他 的 平台 上 从 头 开 始 安装 Ghost，Ghost 提供 了 一 些 
教程 (http://support.ghost.org/deploying-ghost/) 。 你 需要 执行 以 下 主要 步 又。 

(1) 下 载 并 安装 最 新 的 源 代 码 。 

(2) 运行 node [建议 你 使 用 nvm (https://github.com/creationix/nvm)]。 

(3) 使 用 npm (node 版 本 的 pip) 安装 node 依赖 。 

(4) 运 行 pm2 (https://github.com/Unitech/pm2) 来 管理 Ghost 进程 。 

(5) 启动 nginx， 使 用 网 关 与 运行 的 Ghost 进程 通信 。 

(6) 开始 写 博客 | 

如 果 你 遇 到 了 问题 ， 可 以 登入 Ghost 的 slack 频道 (https://ghost.org/slack/)， 看 看 是 否 有 人 
能 够 帮助 你 ， 或 者 在 Stack Overflow (http://stackoverflow.com/) 上 搜索 更 多 相关 的 信息 。 

2. GitHub Pages 和 Jekyll 

如 果 你 使 用 GitHub 托管 代码 ， 你 也 可 以 用 它 来 托管 自己 的 网 站 。GitHub Pages (https:// 
pages.github.com/) 是 一 个 依靠 GitHub 运行 的 网 站 托管 工具 ， 让 你 可 以 灵活 地 部 署 ， 并 能 
轻松 创建 内 容 。 使 用 GitHub Pages， 你 可 以 通过 将 静态 内 容 提交 到 你 的 仓库 ， 直 接 部 署 你 
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的 GitHub 页 面 。 如 果 你 喜欢 使 用 框架 ， 可 以 使 用 Jekyll (http://jekyllrb.com/)， 一 个 基于 
Ruby 的 静态 页 面 生成 器 ， 它 集成 了 GitHub Pages。 


Jekyll 的 文档 (http://jekyllrb.com/docs/home/) 有 一 个 说 明 性 的 概述 ， 涵 盖 了 如 何在 本 地 安 
装 和 运行 Jekyll， 但 是 建议 你 阅读 Barry Clark 为 Smashing 杂志 编写 的 文章 (https://www. 
smashingmagazine.com/2014/08/build-blog-jekyll-github-pages/)。 在 这 篇 文章 中 ， 他 阐述 了 
如 何 复 制 (fork) 一 个 已 有 仓库 ， 运 行 自己 的 站 点 ， 以 及 修改 Jekyll 的 设置 和 特性 。 如 
你 不 想 使 用 Jekyll， 但 是 仍然 想 使 用 GitHub Pages， 你 可 以 使 用 库 或 者 手动 地 生成 静态 的 
HTML 文件 ， 再 将 这 些 文件 提交 到 GitHub Pages 仓库 。 
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一 个 很 容易 使 用 的 Python HTML 生成 器 是 Pelican (https://github.com/ 
getpelican/pelican) ， 它 可 以 接受 AsciiDoc、Markdown 或 者 reStructuredText 
格式 的 文件 ， 并 将 它们 转化 为 静态 内 容 。 它 提供 了 简单 的 步骤 来 启动 评论 和 
访问 分 析 ， 以 及 使 用 GitHub Pages 的 相当 全 面 的 介绍 (http://docs.getpelican. 
com/en/latest/tips.html#publishing-to-github ) 。 














还 有 很 多 其 他 的 静态 站 点 生成 器 ， 也 还 有 很 多 关于 如 何 将 它们 与 GitHub Pages 集成 的 文 
章 。 一 个 搭建 GitHub Pages 博客 的 选择 是 Hexo (http://jdpaton.github.io/2012/11/05/setup- 
hexo/) ， 它 是 一 个 基于 Node.js 的 框架 。Octopress (https://github.com/octopress/octopress) 是 
另外 一 个 很 棒 的 选项 ， 它 基于 Jekyll 构建 ， 所 以 你 可 以 轻松 地 使 用 GitHub Pages 和 Ruby 
来 发 布 和 部 署 站 点 。 

3. 一 键 部 署 

如 果 你 坚持 使 用 大 型 的 博客 工具 或 网 站 框架 ， 比 如 WordPress，DigitalOcean 有 很 多 一 键 安 
装 的 包 (https:/www.digitalocean.com/features/one-click-apps/)， 让 你 能 够 在 短 时 间 内 搭建 
自己 的 服务 器 ， 并 安装 所 有 必需 的 库 和 数据 库 。 它 同样 提供 了 便捷 的 入 门 指引 ， 描 述 了 如 
何在 droplet) 上 安装 WordPress (https:/www.digitalocean.com/community/tutorials/how-to- 
use-the-wordpress-one-click-install-on-digitalocean ) 。 


除了 大 型 的 虚拟 主机 提供 者 外 ， 你 同样 可 以 在 Heroku (一 个 基于 云 的 应 用 主机 服务 商 ，https:// 
devcenter.heroku.com/start) 上 使 用 Python、Ruby 和 其 他 开源 的 平台 。 如 果 你 正在 使 用 或 学 习 
一 个 开源 框架 ， 可 以 使 用 Heroku 来 部 署 自己 的 网 站 ， 它 提供 了 很 棒 的 文档 和 技术 支持 。 

无 论 你 使 用 哪 一 个 框架 或 解决 方案 ， 专 注 于 用 简单 的 方式 在 网 络 上 发 布 内 容 或 代码 ， 是 很 
重要 的 。 选 择 一 些 简单 直接 的 方案 ， 并 专注 于 恰当 地 向 全 世界 展示 、 发 布 和 分 享 内 容 。 






























































10.4.3 Jupyter ( 曾 名 IPython notebook ) 

我 们 已 经 介绍 了 怎样 分 享 你 的 发 现 ， 但 是 如 果 你 还 想 分 享 代码 、 数 据 或 者 研究 过 程 呢 ? 根 
据 听 众 的 不 同 ， 分 享 代 码 并 人 允许 人 们 直接 与 其 交互 可 能 是 很 合适 的 。 如 果 你 准备 分 享 给 同 
事 和 同行 ， 这 是 一 个 很 好 的 展示 你 如 何 进行 研究 的 方式 。 























注 2: DigitalOcean 虚拟 主机 的 别名 。 一 一 译 者 注 
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Jupyter notebook (https://jupyter.org/， 曾 名 IPython notebook，http://ipython.org/notebook.html) 是 
一 个 很 好 的 分 享 Python 代码 和 代码 生成 的 图 表 的 方式 。 这 些 notebook 组 合 了 易于 使 用 的 浏览 
器 和 IPython 的 交互 特性 。notebook 在 迭代 代码 设计 和 数据 探索 中 也 非常 有 用 。 


正在 学 习 新 的 库 或 者 使 用 新 数据 ? 在 Jupyter notebook 中 保存 你 的 工作 。 一 
旦 完成 了 迭代 并 优化 了 代码 ， 你 可 以 将 代码 中 重要 的 部 分 移动 到 仓库 中 ， 恰 
当地 结构 化 、 文 档 化 ， 将 这 些 东 西 综合 在 一 起 。 























使 Jupyter 就 绪 并 在 本 地 运行 它 非常 简单 ， 只 需 ; 


pip install "ipython[notebook]" 


下 
> 
如 
心 


要 启动 notebook 服务 器 ， 运 行 : 
ipython notebook 


你 看 到 的 终端 输出 应 该 类 似 于 : 


[NotebookApp] Using Math]Jax from CDN: https://cdn.mathjax.org/mathjax/Latest/ 
MathJax.js 

[NotebookApp] Terminals not available (error was No module named terminado) 

[NotebookApp] Serving notebooks from local directory: /home/foo/my-python 

[NotebookApp] 0 active kernels 

[NotebookApp] The IPython Notebook is running at: http://localhost:8888/ 

[NotebookApp] Use Control-C to stop this server and shut down all kernels. 

Created new window in existing browser session. 


这 是 notebook 服务 器 启动 的 过 程 。 你 会 看 到 一 个 新 的 浏览 器 窗口 (或 tab) 打开 一 个 空 的 
notebook。 


根据 运行 notebook 文件 夹 的 不 同 ， 你 可 能 会 在 浏览 器 中 看 到 一 些 文件 。notepook 服务 器 
直接 在 当前 文件 夹 中 运行 ， 并 展示 这 个 文件 夹 的 内 容 。 建 议 为 notebook 创建 一 个 新 的 文 
件 夹 。 为 了 创建 新 的 文件 夹 而 停止 服务 器 ， 需 在 运行 的 终端 中 输入 Ctrl-C (Windows 和 
Linux 上 ) 或 者 Cmd-C (Mac 上 )。 创 建 一 个 新 的 目录 ， 切 换 目 录 到 这 个 文件 夹 下 ， 重 新 启 
动 服务 器 ， 类 似 下 面 这 样 : 

mkdir notebooks 


cd notebooks/ 
ipython notebook 


让 我 们 通过 创建 一 个 新 的 notebook 来 使 用 Jupyter。 为 了 达到 这 个 目的 ， 点 击 New 下 拉 菜 
单 ， 选 择 Notebooks 头 部 下 的 Python 2。 创 建 好 新 的 notebook 后 ， 给 它 一 个 有 用 的 名 称 。 
为 此 ， 点 击 tile 区 域 (这 里 当前 应 该 为 “Untitled”)， 输 入 一 个 新 名 称 。 为 notebook 命名 
会 在 将 来 节省 你 大 量 的 搜索 时 间 。 


在 Jupyter 中 ， 每 一 个 文本 区 域 被 叫 作 单元 。notebook 支持 多 种 不 同 的 单元 类 型 。 在 顶部 
和 代码 间 使 用 一 些 Markdown (https://daringfireball.net/projects/markdown/syntax) 单元 来 解 
释 并 给 代码 添加 文档 是 一 个 很 好 的 想法 。 图 10-6 展示 了 一 个 添加 头 部 (header) 的 示例 。 
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JU pyte rt Child Labor Data Last checkpoint 4 m 


File Edit View Insert Cell Kemel Help 


二 3 外 大 | 个 路 | 国 CIwardowmn 


Markdown 
Raw NBConvert 
Heading 


#Data Explora 


mI 









inutes ago (autosaved) 


N Cell Toolbar: None 





icef Child Labor 








10-6: 添加 Markdown 标题 





要 开始 编写 Python， 只 需 点 击 下 一 个 可 用 的 单元 ， 然 后 输入 即 可 。 当 你 完成 了 编写 的 语句 





或 函数 后 ， 敲 击 Shift+Enter。 代 码 会 执行 并 昌 
Python 代码 。 正 如 在 图 10-7 和 你 
的 Python 解释 器 中 会 看 到 的 所 有 输出 。 





H 现 一 个 新 的 单元 ， 在 这 里 你 可 以 编写 下 一 个 


自己 的 notebook 中 看 到 的 那样 ， 你 可 以 看 到 在 一 个 普通 





Data Exploration -- Unicef 


Child Labor 





In [1]: 1 == 1 
out[1]: True 
In [2]: def test function(x, y): 
return int(x) + int(y) 
In [3]: test function(1, 2) 
out[3]: 3 
In [4]: test function(foo, bar) 
NameError Traceback (most recent call last) 
<ipython-input-4-c9ed7bdf68f5> in <module>() 
----> 1 test function(foo, bar) 
NameError: name 'foo' is not defined 人 
| In [ ]: 











10-7: 在 Jupyter 中 工作 


有 很 多 非常 棒 的 Jupyter (和 IPython) notebo 
尝试 一 些 本 书 中 使 用 过 的 代码 。 


隆 
包含 数据 的 数据 (data) 文件 夹 ， 
具 (utils) 文件 夹 。 你 的 noteboo 
在 浏览 器 中 。 











I DS 
二 




















用 完 notebook， 点 击 保存 按钮 (确保 它 创建 


E 议 组 织 你 的 notebook， 使 其 类 似 于 你 的 仓库 。 你 电 








ok 指南 ， 但 是 一 个 很 好 的 入 手 点 可 能 是 重新 
能 希望 根 目录 下 有 一 个 





四 


以 及 一 个 包含 可 导入 notebook 的 脚本 的 了 
k 就 像 另 一 个 脚本 ， 只 是 它 是 交互 式 的 ,者 


让 





一 个 新 的 检查 点 ， 这 样 可 以 更 新 你 的 文件 )。 
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如 果 你 在 一 个 特定 的 notebook 中 完成 了 工作 ， 但 是 仍 在 使 用 其 他 的 notebook， 停 止 老 
的 notebook 进程 是 明智 的 选择 。 为 此 ， 选 择 服务 器 上 的 Running 标签 ， 并 点 击 Shutdown 
按钮 。 当 你 对 所 有 的 notebook 完成 了 编辑 ， 保 存 它们 并 使 用 Ctrl-C 或 Cmd-C 在 运行 
notebook 的 终端 停止 服务 器 。 

共享 的 Jupyter notebook 

现在 你 已 经 熟悉 Jupyter notebook 的 使 用 了 ， 可 以 通过 共享 服务 器 上 传 并 分 享 代码 。 这 使 
得 他 人 可 通过 普通 网 络 (不 仅 是 本 地 主机 ， 例 如 前 文 在 你 的 终端 上 运行 的 notebook) 访问 
你 的 notebook。 


有 一 些 很 棒 的 入 门 教 程 说 明了 如 何 使 用 DigitalOcean (http://calebmadrigal.com/ipython- 
notebook-vps/) 、Heroku (https://github.com/mietek/instant-ipython)、Amazon 网 络 服务 
(https://gist.github.com/iamatypeofwalrus/5183133)、Google DataLab (https://cloud.google. 
com/datalab/) ,或 者 你 喜欢 的 任意 服务 器 (http://ipython.org/ipython-doc/1/interactive/public 
server.html#notebook-public-server) ， 来 搭建 一 个 notebook 服务 器 。 














记得 在 notebook 服务 器 上 使 用 安全 密码 ， 保 证 notebook 只 被 有 这 个 密码 的 
人 使 用 。 这 会 确保 服务 器 和 数据 安全 。 








建议 你 也 为 Jupyter notebook 建立 一 个 类 似 Git (第 14 章 再 深入 探索 ) 这 样 的 版 本 控制 系 
统 ， 这 样 你 就 有 了 notebook 每 天 或 每 周 的 历史 记录 。 通 过 这 种 方式 ， 你 可 以 恢复 删除 的 东 
西 ， 同 时 帮 你 保存 和 组 织 代码 。 


如 果 你 正在 使 用 一 个 共享 的 notebook 服务 器 ， 确 保 人 们 知道 内 核 被 中 断 (这 
在 服务 器 重启 或 者 有 人 终止 或 重启 notebook 内 核 时 都 会 发 生 ) 时 如 何 运行 
所 有 的 代码 。 为 了 运行 所 有 notebook 代码 ， 选 择 notebook 工具 栏 中 的 Cell 
下 拉 菜 单 ， 然 后 点 击 Run All 按钮 。 你 也 应 该 建议 用 户 在 完成 工作 后 使 用 
Shutdown 终止 notebook， 这 样 服务 器 上 就 没有 无 用 的 运行 进程 。 






































无 论 本 地 还 是 共享 的 Jupyter notebook 都 是 展示 数据 和 工作 流 的 很 好 的 工具 。 当 你 回顾 数 
据 探 索 和 分 析 时 ， 在 本 地 运行 它们 将 会 非常 有 用 。 随 着 Python 知识 的 增长 ， 你 可 以 将 脚本 
迁移 到 Python 3， 同 时 运行 JupyterHub (https://github.com/jupyter/jupyterhub)。JupyterHub 
就 一 个 多 用 户 的 notebook 服务 器 ， 运 行 着 多 种 语言 (包括 Python) ， 当 前 正 处 在 积极 地 开 
发 中 。 

无 论 选 择 在 notebook 服务 器 还 是 开源 平台 上 发 布 ， 你 现在 已 经 掌握 了 技能 ， 能 够 分 析 如 何 
以 最 佳 方式 展现 和 发 布 你 的 发 现 、 数 据 和 代码 。 


10.5 小结 


你 已 经 学 习 了 如 何 将 数据 转化 为 可 演示 的 形式 ， 并 且 通 过 互联 网 传播 它 。 你 有 很 多 发 布 选 
择 ， 它 们 有 不 同 的 隐私 等 级 和 维护 需求 。 你 可 以 为 报告 搭建 一 个 网 站 ， 并 创建 美丽 的 图 片 
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和 图 表 来 讲述 故事 。 有 了 Jupyter 的 帮助 ， 你 可 以 很 容易 地 分 享 和 演示 你 写 的 代码 ， 同 时 
交 他 们 一 点 Python 知识 。 


你 同样 学 习 了 表 10-1 中 列 出 的 库 和 概念 。 
表 10-1: 新 的 Python 和 编程 概念 和 库 






































































































































概念 / 库 功能 

用 于 绘图 的 matplotlib 库 可 以 使 用 两 个 图 表 库 生成 简单 的 图 表 。 你 可 以 为 图 表 使 用 标签 和 标 
题 ， 用 更 清楚 的 方式 展示 数据 

用 于 更 复杂 图 表 的 Bokeh 库 允许 你 轻松 地 生成 更 复杂 的 图 表 ， 可 以 在 图 表 中 添加 交互 式 元 素 

用 于 SVG 图 形 和 地 图 的 pygal 库 ” pygal 让 你 能 够 使 用 简单 的 函数 传递 数据 生成 SVG 图 片 

Ghost 博客 平台 基于 Nodejs 的 博客 平台 ， 让 你 能 够 在 自己 的 服务 器 (或 挂 载 在 
Ghost 上 的 平台 ) 上 快速 地 构建 一 个 博客 ， 在 自己 的 网 站 上 分 享 故 事 

GitHub Pages 和 Jekyll 一 个 集成 在 GitHub 上 的 简单 发 布 平台 ， 你 可 以 通过 简单 地 提交 代码 
到 仓库 中 来 分 享 文章 和 演示 文档 

Jupyter notebook 一 个 同 其 他 开发 者 或 同事 分 享 代码 的 简单 方式 ， 同 样 也 是 一 种 使 用 敏 











捷 开 发 方法 〈 反 复试 错 ) 开始 开发 自己 的 代码 的 很 好 的 方式 


接 下 来 ， 我 们 会 学 习 如 何 通 过 网 络 仆 虫 和 API 收集 更 多 的 数据 。 你 在 本 章 学 到 的 知识 会 用 
在 今后 收集 的 数据 上 ， 所 以 请 继续 阅读 ， 学 习 新 的 演示 技巧 。 在 后 面 的 章节 里 ， 你 会 学 得 
更 高 级 的 Python 数据 技术 ， 让 你 更 好 地 使 用 Python 收集 、 评 估 、 保 存 和 分 析 数 据 。 你 在 
本 章 学 到 的 讲 故 事 工 具 会 帮助 你 更 好 地 进行 数据 处 理 ， 将 研究 所 得 分 享 给 听众 和 全 世界 。 
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第 11 章 


网 页 抓 取 : 获取 并 存储 网 络 数据 








网 页 抓 取 是 当今 世界 数据 挖掘 中 必 不 可 少 的 一 部 分 ， 因 为 你 几乎 可 以 在 网 络 上 找到 任何 事 
物 。 有 了 网 页 抓 取 ， 你 可 以 使 用 Python 库 来 探索 Web 页 面 、 搜 索 信 息 并 收集 它们 以 撰写 
报告 。 网 页 抓 取 让 你 扑 取 站 点 ， 发 现在 没有 机 器 人 协助 的 情况 下 不 容易 获取 的 信息 。 


这 项 技术 使 你 能 够 获取 API 或 文档 之 外 的 数据 。 想 象 一 个 脚本 登录 你 的 E-mail 账户 ， 下 载 
文件 ， 运 行 分 析 ， 并 且 发 送 一 个 整合 的 报告 。 想 象 一 下 不 用 使 用 浏览 器 就 可 以 测试 站 点 ， 
以 确定 它 具 备 完整 的 功能 。 想 象 一 下 从 一 个 定期 更 新 的 网 站 的 一 系列 表格 中 抓 取 数 据 。 这 
些 示例 展示 了 网 页 抓 取 如 何 能 帮助 你 完成 数据 处 理 的 需求 。 


根据 爬 取 内 容 的 不 同 本 地 或 公开 站 点 ，XML 文档 一 一 你 可 以 使 用 很 多 相同 的 工具 完 
成 这 些 任务 。 大 多 数 网 站 在 HTML 代码 中 包含 数据 。HTML 是 一 种 标记 语言 ， 使 用 括号 
(类 似 于 第 3 章 中 的 XML 示例 ) 来 包含 数据 。 在 这 一 章 ， 我 们 会 使 用 一 些 能 够 解析 和 读 取 
HTML 和 XML 等 标记 语言 的 库 。 


很 多 站 点 使 用 内 部 的 API 和 嵌入 的 JavaScript 脚本 来 控制 页 面 上 的 内 容 。 由 于 这 些 构建 站 
点 的 新 方式 ， 并 不 是 所 有 的 信息 都 能 够 使 用 读 页 面 的 抓 取 器 找到 。 我 们 还 会 学 习 如 何 使 用 
一 些 读 屏幕 的 Web 抓 取 器 ， 应 对 拥有 多 个 数据 源 的 站 点 。 根 据 站 点 的 组 成 ， 你 可 能 同样 可 
以 连接 API; 在 第 13 章 你 会 了 解 更 多 有 关 API 的 信息 。 


11.1 抓 取 什么 和 如 何 抓 取 


网 页 抓 取 为 数据 收集 带 来 了 无 限 可 能 。 在 互联 网 上 有 成 千 上 万 的 站 点 ， 拥 有 可 能 会 在 项 目 
中 使 用 的 各 种 各 样 的 内 容 和 数据 。 为 了 构建 一 个 认真 负责 的 网 页 抓 取 器 ， 要 熟悉 每 一 个 站 
点 ， 以 及 可 抓 取 的 内 容 。 
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版 权 、 商 标 和 抓 取 
当 在 网 络 上 抓 取 时 ,对 于 你 找到 的 所 有 媒体 (来 自 报纸 、 杂 志 、 书 籍 或 博客 ) ， 你 应 该 
考虑 收集 的 数据 和 它们 的 使 用 方式 。 你 是 否 会 下 载 其 他 人 的 照片 并 且 将 它 当 作 自 己 的 
照片 发 布 ? 不 ， 这 是 不 道德 的 ， 而 且 在 一 些 情况 下 是 非法 的 。 


学 习 像 版 权 (http://www.dmlp.org/legal-guide/copyright) 和 商标 (http://www.dmlp.org/ 
legal-guide/trademark) 这 样 的 媒体 法 会 影响 你 的 决定 ， 尤 其 是 要 抓 取 的 数据 属于 某 人 
的 知识 产权 (http://www.dmlp.org/legal-guide/intellectual-property) 时 。 

研究 域名 并 查阅 法 律 允 许 内 容 和 禁止 内 容 的 有 关 提 示 ， 还 要 熟 读 robots 文件 (http:// 
www.robotstxt.org/robotstxt.html) 来 更 好 地 理解 网 站 所 有 者 的 意愿 。 如 果 你 不 确定 数据 
能 否 被 抓 取 ， 可 联系 律师 或 网 站 本 身 。 取 决 于 你 的 住址 和 使 用 数据 的 目的 ， 如 果 你 对 
本 国法 律 和 判例 存 有 疑问 ， 可 能 需要 联系 一 家 数字 媒体 法 定 组 织 。 








对 于 大 多 数 的 网 络 抓 取 ， 抓 取 文 本 会 比 抓 取 链 接 、 图 片 或 图 表 更 合理 。 如 果 

你 还 需要 保存 链接 、 图 片 或 文件 ， 这 其 中 的 大 多 数 都 可 以 使 用 简单 的 bash 命 

令 (例如 wget 或 curl，http://www.thegeekstuff.com/2012/07/wget-curl/) 下 载 ， 

而 这 不 需要 Python。 你 可 以 直接 保存 一 个 URL 列表 到 文件 中 并 且 写 一 个 脚本 

来 下 载 文件 。 
我 们 从 简单 的 文本 抓 取 开始 。 大 多 数 网 页 的 构建 都 基于 适当 的 HTML 标准 ， 结 构 相 似 。 大 
多 数 的 网 站 有 一 个 头 部 ， 大 多 数 的 JavaScript 和 页 面 样式 文件 在 这 里 定义 ， 同 时 还 有 其 他 
额外 信息 ， 比 如 类 似 Facebook、Pinterest 这 样 的 服务 的 元 标签 ， 以 及 搜索 引擎 用 法 的 描述 信息 。 
头 部 之 后 是 主体 。 主 体 是 站 点 的 主要 部 分 。 大 多 数 的 站 点 使 用 容器 (类似 XML 节点 的 标 
记 节 点 ) 来 组 织 站 点 ， 并 且 允 许 站 点 内 容 管理 系统 加 载 内 容 到 页 面 中 。 图 11-1 展示 了 一 个 
典型 的 网 页 是 如 何 组 织 的 。 





























图 11-1: 网 页 解剖 
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对 于 很 多 站 点 来 说， 页 面 的 顶部 部 分 包含 到 站 点 主要 部 分 或 者 相关 主题 的 导航 和 链接 。 链 
接 或 者 广告 通常 出 现在 页 面 两 边 向 下 延展 的 位 置 。 页 面 的 中 间 部 分 通常 包含 你 想 要 抓 取 的 内 容 。 














熟悉 大 多 数 网 页 的 结构 (元素 的 视觉 位 置 和 它们 在 标记 语言 中 的 位 置 ) 会 帮 
助 你 从 互联 网 上 抓 取 数 据 。 如 果 可 以 聚焦 到 数据 源 ， 你 就 可 以 快速 地 构建 抓 
取 绒 。 





一 旦 知道 了 在 页 面 上 寻找 什么 ,并且 通过 学 习 页 面 源 代码 的 结构 分 析 了 页 面 的 组 成 ， 你 就 
可 以 确定 如 何 收集 页 面 中 的 重要 的 部 分 。 许 多 网 页 在 第 一 次 页 面 加载 的 时 候 提 供 内 容 ， 或 
者 提供 一 个 已 加 载 好 内 容 的 缓存 页 面 。 对 于 这 些 页 面 ， 可 以 使 用 简单 的 XML 或 HTML 解 
析 器 (我们 会 在 本 章 学 习 它们 )， 并 且 从 第 一 个 HTTP 响应 (在 你 请 求 一 个 URL 时 浏览 器 
加 载 的 内 容 ) 中 直接 读 取 内 容 。 这 与 读 取 文档 类 似 ， 只 是 需要 一 个 初始 的 页 面 请 求 。 

如 果 你 需要 首先 同 页 面 交互 来 获取 数据 (也 就 是 输入 数据 和 点 击 按钮 )， 并 且 它 不 仅仅 是 
一 个 简单 的 URL 的 改变 ， 你 需要 使 用 一 个 基于 浏览 器 的 抓 取 器 ， 在 浏览 器 中 打开 页 面 同 
它 交互 。 
如 果 需 要 遍历 整个 网 站 来 收集 数据 ， 你 会 想 要 一 个 尺 野 : 一 个 机 器 人 ， 它 仆 取 网 页 ， 并且 
根据 规则 识别 好 的 内 容 或 跟踪 更 多 页 面 。 我 们 在 疏 取 中 使 用 的 库 非 常 地 快速 、 灵 活 ， 让 编 
写 这 些 类 型 的 脚本 变 得 十 分 简单 。 

在 开始 编写 抓 取 器 代码 之 前 ， 我 们 会 查看 一 些 网 站 ， 习 惯 于 分 析 要 使 用 那个 类 型 的 抓 取 器 
(页 面 读 取 器 、 浏 览 器 读 取 器 或 肘 虫 )， 以 及 抓 取 数据 会 多 难 或 多 简单 。 有 时 ， 确 定数 据 值 
得 付出 多 少 努 力 是 很 重要 的 。 我 们 会 介绍 一 些 工 具 来 确定 为 抓 取 数据 需要 付出 多 少 努 力 ， 
以 及 值得 为 这 项 工作 投入 多 少时 间 。 


11.2 分 析 网 页 


网 络 抓 取 的 大 多 数 时 间 会 花费 在 观察 浏览 器 标记 语言 和 搞 清 楚 如 何 同 它 交互 上 。 了 解 你 最 
爱 的 浏览 器 的 调试 或 开发 工具 是 成 为 一 名 高 级 网 页 抓 取 者 的 必要 环 市 。 
根据 浏览 器 的 不 同 ， 工 具 可 能 有 不 同 的 名 称 和 功能 ， 但 是 概念 是 相同 的 。 你 需要 自学 最 喜 
欢 的 浏览 器 工具 ， 不 管 是 I (https://msdn.microsoft.com/library/bg182326(v=vs.85))、Safari 
(https://developer.apple.com/safari/tools/)、Chrome (https://developer.chrome.com/devtools) 
或 Firefox (https://developer.mozilla.org/en-US/docs/Tools/GCLI) 。 


每 个 浏览 器 的 调试 器 都 是 类 似 的 。 你 会 在 一 个 区 域 看 到 请 求 和 页 面 加 载 数 据 (通常 叫 网 络 
或 者 其 他 类 似 的 东西 ) ; 在 另外 一 个 区 域 分 析 页 面 的 标记 信息 ， 看 到 每 个 标签 中 的 内 容 和 
样式 (通常 叫 作 检视 、 元 素 或 DOM)。 在 第 三 个 区 域 ， 你 可 以 看 到 JavaScript 错误 ， 并 同 
页 面 中 的 JavaScript 交互 ， 这 个 区 域 通常 叫 作 控制 台 。 


你 的 浏览 器 开发 者 工具 可 能 还 有 其 他 的 标签 ， 但 是 我 们 真 的 只 需要 这 3 个 标签 来 理解 页 面 
是 如 何 构 建 的 ， 以 及 如 何 简单 地 抓 取 内 容 。 
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11.2.1 检视 : 标记 结构 


当 你 想 要 抓 取 一 个 站 点 的 时 候 ， 首 先 分 析 站 点 结构 和 标记 语言 。 像 在 第 3 章 学 到 的 那样 
XML 的 结构 由 节点 和 内 容 以 及 键 和 值 组 成 。HTML 非常 相似 。 如 果 打 开 议 览 器 的 开发 者 
工具 ， 浏 览 检视 (Inspection)、 元 素 (Elements) 或 DOM 标签 ， 你 会 看 到 一 系列 的 节点 
和 它们 的 值 。 节 点 和 其 包含 的 数据 同 我 们 在 XML 示例 中 看 到 的 有 一 些 不 同一 一 它们 是 
HTML 标签 ( 表 11-1 列 出 了 一 些 基本 的 标签 )。HTML 标签 用 来 告诉 你 内 容 信息 。 如 果 你 
想 找到 页 面 上 的 所 有 图 片 ， 查 找 img 标签 。 


表 11-1: 基本 的 HTML 标 签 





















































标签 描述 示例 

head 用 来 存储 元 数据 和 文档 的 其 ”<head> <title>Best Title Ever</title> </head> 
他 必需 信息 

body 用 来 存储 页 面 大 部 分 内 容 <body> <p>super short page</p> </body> 

meta 用 来 存储 元 数据 ， 例 如 站 点 ”<meta name="keywords"content="tags, html"> 


简短 的 描述 或 关键 词 
hl1 ，h2，h3 … 用 来 存储 头 部 信息 ;数字 越 ”<hi>Really big one!</h1> 
小 ， 头 部 越 大 











p 用 来 存储 文本 段落 <p>Here's my first paragraph.</p> 
ul, ol 用 来 存储 无 序 表 (ul: 圆 点 ) ”<ul><li>first bullet</1li></ul> 
和 有 序 表 (ol: 数字 ) 
人 用 来 存储 列表 对 象 ， 应 该 始 ”<ul><li>first</1li> <li>second</li></ul> 
终 位 于 一 个 列表 (uL 或 oU) 
中 
div 用 于 分 节 或 划分 内 容 <div id="about"><p>This div is about things.</p></div> 
a 用 于 链接 内 容 ， 被 称 作 “ 锚 <a href="http://oreilly.com">Best Ever</a> 
标签 ” 
img 用 于 插入 一 张 图 片 <img src="/flying cows.png" alt="flying cows!" /> 


关于 HTML 标签 和 其 使 用 方式 的 完整 介绍 ， 请 查看 Mozilla 开发 者 网 络 的 HTML 参考 、 指 
南 和 介绍 (https://developer.mozilla.org/en-US/docs/Web/HTML)。 


除了 使 用 的 标签 和 内 容 结构 ， 每 个 标签 之 间 放 置 的 位 置 很 重要 。 类 似 于 XML，HIML 也 
有 父 元 素 和 子 元 素 。 在 结构 中 存在 层次 关系 。 父 节点 拥有 子 节 点 ， 而 学 习 如 何 遍历 家 族 树 
结构 会 帮助 你 得 到 想 要 的 内 容 。 了 解 元 素 之 间 的 关系 ， 无 论 它 们 是 双 杀 刷 点 、 子 节点 还 是 
同 级 节点 ， 会 帮助 你 编写 更 高 效 、 快 速 和 易于 更 新 的 抓 取 器 。 

让 我 们 仔细 地 查看 在 HTML 页 面 中 这 些 关 系 意味 着 什么 。 下 面 是 一 个 基本 的 HTML 站 点 
的 结构 。 


<!DOCTYPE htmL> 
<html> 
<head> 























<title>My Awesome Site</title> 
<Link rel="stylesheet" href="css/main.css" /> 





</head> 
<body> 
<header> 
<div id="header">I'm ahead!</div> 
</header> 
<section class="main"> 
<div id="main_content"> 
<p>This site is super awesome! Here are some reasons it's so awesome:</p> 
<h3>List of Awesome:</h3> 
<UL> 
<LiL>Reason one: see titLe</LiL> 
<LiL>Reason two: see reason one</li> 


</ul> 
</div> 
</section> 
<footer> 
<div id="bottom nav"> 
<ul> 
<LiL><a href=" /about">About</a></LiL> 
<li><a href="/bLog">BLog</a></Li> 
<li><a href="/careers">Careers</a></li> 
</ul> 
</div> 
<script src="js/myjs.js"></script> 
</footer> 
</body> 
</htmL> 








如 果 从 这 个 页 面 的 第 一 个 标签 开始 (文档 类 型 声明 下 )， 可 以 看 到 整个 页 面 的 所 有 内 容 都 
在 html 标签 下 。html 标签 是 整个 页 面 的 根 标签 。 


在 htmt 标签 内 ， 有 标签 head 和 body。 页 面 的 大 部 分 内 容 在 标签 body 内 ， 但 是 head 也 有 
一 些 内 容 。 标 签 head 和 body 是 html 元 素 的 子 标签 。 反 过 来 ， 这 些 标签 有 着 他 们 自己 的 子 
标签 和 后 继 标签 。head 和 body 标签 是 同 级 关系 。 

查看 主 body 标签 的 内 部 ， 可 以 看 到 其 他 一 些 家 族 关 系 。 所 有 这 些 列 表 对 象 (Li 标签 ) 是 
无 序列 表 (ul 标签 ) 的 子 标签 。header、section 和 footer 标签 是 同 级 关系 。script 是 
footer 的 子 标 签 ， 是 footer 中 div 标签 的 邻居 ， 用 来 存储 链接 。 还 有 很 多 复杂 的 关系 ， 这 
只 是 一 个 简单 的 页 面 ! 

为 了 更 深入 地 研究 ， 下 面 的 代码 展示 了 一 个 有 着 更 复杂 关系 的 页 面 (处 理 网 页 抓 取 时 ， 几 
平 很 难 有 一 个 所 有 元 素 组 织 合理 且 关 系 完整 的 完美 页 面 ) : 


<!DOCTYPE html> 
















































































<htmL> 
<head> 
<title>test</title> 
<Link ref="stylesheet" href="/style.css"/> 
</head> 
<body> 


<div id="container"> 
<div id="content" class="clearfix"> 
<div id="header"> 








网 页 抓 取 : 获取 并 存储 网 络 数据 | 225 


<h1>Header</h1> © 
</div> 
<div id="nav"> 外 
<div class="navblock"> © 
<h2>0ur Philosophy</h2> 
<ul> 
<li>foo</1i> 
<li>bar</1i> 
</ul> 
</div> 
<div class="navblock"> @ 
<h2>About Us</h2> © 
<ul> 
<li>more foo</li> @ 
<li>more bar</1i> 
</ul> 
</div> 
</div> 
<div id="maincontent"> @ 
<div class="contentblock"> 
<p>Lorem ipsum dolor sit amet...</p> 
</div> 
<div class="contentblock"> 
<p>Nunc porttitor ut ipsum quis facilisis.</p> 














</div> 
</div> 
</div> 
</div> 
<style>...</style> 
</body> 
</htmL> 
@ 当前 元 素 父 元 素 的 前 面 的 邻居 的 第 一 个 子 元 素 。 
@ 当前 元 素 的 父 级 / 祖先 。 
@ 当前 元 素 的 邻居 。 
@ 当前 元 素 。 


@ 当前 元 素 的 第 一 个 子 元素 /后 代 。 

@ 当前 元 素 的 子 元 素 / 后 代 。 

@ 当前 元 素 父 元 素 的 下 一 个 邻居 。 

为 便于 讨论 ,“ 当 前 元 素 ” 是 第 二 个 为 navblock 类 的 div。 可 以 看 到 它 有 两 个 子 元 素 ， 一 
个 是 标题 (hz2) ， 另 一 个 是 无 序列 表 (ul)， 同 时 还 有 列表 对 和 象 (Li) 位 于 列表 中 。 它 们 是 
后 代 (取决 于 你 想 使 用 的 库 ， 它 可 能 被 包含 在 “all children” 中 ) 。 当 前 元 素 有 一 个 邻居 ， 
即 第 一 个 为 navblock 类 的 div。 


ID 为 nav 的 div 是 当前 元 素 的 父 元素 ， 但 是 我 们 的 元 素 有 其 他 的 祖先 。 如 何 从 当前 元 素 移 
动 到 ID 为 header 的 div? 我 们 的 父 元 素 是 header 元 素 的 邻居 。 为 了 得 到 header 元 素 的 
内 容 ， 可 以 找到 父 元 素 的 前 面 的 邻居 。 父 元 素 同 样 有 另外 一 个 邻居 ， 即 ID 为 maincontent 
的 div。 








T 


























所 有 这 些 关 系 被 描述 为 文档 对 象 模型 (DOM) 结构 。HTML 用 规则 和 标准 
来 组 织 页 面 上 的 内 容 (也 被 称 作文 档 )。HTML 元 素 节 点 是 “对 象 "， 并 且 为 
了 正确 地 展示 ， 它 们 必需 遵循 一 个 模型 /标准 。 





花费 在 理解 节点 之 间 的 关系 上 的 时 间 越 多 ， 使 用 代码 快速 有 效 地 遍历 DOM 树 就 越 容易 。 
在 本 章 之 后 的 部 分 ， 我 们 会 介绍 XPath， 它 使 用 家 族 关系 选择 内 容 。 现 在 ， 进 一 步 理 解 了 
HTML 结构 和 DOM 元 素 之 间 的 关系 之 后 ， 我 们 可 以 更 仔细 地 研究 定位 和 分 析 在 选择 的 站 
点 上 想 要 抓 取 的 内 容 。 


你 或 许可 以 使 用 开发 者 工具 搜索 标记 代码 ， 这 取决 于 浏览 器 。 这 是 一 种 非常 
棒 的 查看 元 素 结构 的 方式 。 举 个 例子 ， 如 果 正 在 寻找 内 容 中 一 个 特别 的 小 
节 ， 可 以 搜索 这 些 词语 ， 找 到 它们 的 位 置 。 许 多 浏览 器 还 允许 你 右 击 页 面 上 
的 元 素 ， 选 择 “ 检 视 "。 这 通常 会 打开 你 的 浏览 器 工具 来 选择 元 素 。 











我 们 会 在 示例 中 使 用 Chrome， 但 是 你 可 以 使 用 自己 最 喜欢 的 浏览 器 。 当 研究 非洲 的 童工 
时 ， 我 们 发 现 了 将 童工 与 冲突 相 联系 的 数据 。 这 促使 我 们 找到 致力 于 阻止 非洲 冲突 地 带 
和 冲突 矿产 的 组 织 。 打 开 甚 中 一 个 组 织 的 页 面 : Enough 项 目的 Take Action 页 面 (http:// 


www.enoughproject.org/take_action) 


当 第 一 次 打开 开发 者 工具 时 一 一 在 Chrome 中 选择 工具 一 开发 者 工具 ， 在 正中 敲 击 F12， 
ed ii [开发 者 一 检视 器 ， 或 者 在 Safari 高 级 设置 中 启用 开发 者 菜 
单一 一 我 们 会 在 一 个 面板 中 看 到 标记 信息 ， 在 另外 一 个 小 的 面板 中 看 到 CSS 规则 和 样式 ， 
在 工具 上 方 的 一 个 面板 中 看 到 真正 的 页 面 。 对 于 不 同 的 浏览 器 ， 布 局 可 能 会 不 同 ， 但 是 用 
这 些 工具 查看 这 些 特性 时 应 该 会 很 相似 ( 见 图 11-2)。 









































Q@ Take Action | Eno x 
< € BD wwwenoughproject.org/take_action 











enough 


The project to snd genacide and crimes against humanity 


四 间 图 局 图 
Tell Jewelry Companies: Conflict-Free Gold 
from Congo Matters to Me! 











加 





mputed Event Listeners DOM Breakpoints Prope 



































11-2: Enough 项 目的 Take Action 页 面 
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如 果 移 动 光标 到 开发 者 工具 的 标记 部 分 (检视 标签 )， 你 可 能 会 看 到 页 面 上 
不 同 的 部 分 出 现 高 亮 。 这 是 一 个 非常 棒 的 特性 ， 可 以 帮助 你 看 到 标记 和 页 面 
结构 中 不 同 的 元 素 。 


如 果 点 击 与 dtv 和 页 面 主 元 素 相 邻 的 箭头 ， 你 可 以 看 到 位 于 其 中 的 元 素 ( 子 元 素 )。 举 个 例 
子 ， 在 Enough 项 目 主页 上 ， 可 以 通过 点 击 右边 栏 (在 图 11-3 中 国 出 )， 打 开 main-inner- 
tse div 和 其 他 内 部 的 div。 








如 Take Action |Eno' x 





， C [Dwwwenoughproject.org/take_action 立 喇 @ 昌 由 # 贸 三 











Take Action 





Tell Jewelry Companies: Conflict-Free Gold 
严 from Congo Matters to Me! 
In recent years, electronics companies and policymaker 
progress towards developing a conflict- , 


armed groups that commit atrocties. This holday season, Enough wil launch a 页 面 上 的 侧 边 栏 


leaderboard highlighting the top Jewelry retallers taking positive action in the 
effort to help create a confict-free gold trade fom eastem Congo. 


Action Now: ,loin CEC! students and others in dermonsiratina 
Qa [ lelements| Network Sources Timeline Profiles Resources Audits Console 











<html xmlns="http://www.w3,0rg/1999/xhtml” xml:lang="en” Lang="en™ di ass="js"> I 
Pp he: 








v <bor je not-front not-togged-in page-take 


ght page-take-action section-take-action page-views 并 | mherited from divesidebarright 
ged action Section-take-action page-views not-front not- 










take action 
da39f2_794a6d .css:169 
ght，#fool sure-blocks { 


Lake act: | 
table, css_a6ad7da38f2_794a6d.css:166 


了 
Inheritedfrom divémain-innertse.clear-block. with-navbar 


take action 
table ss 26ad7da3012.794a6d. cs5:166 





的 侧 边 栏 


take_ action 
a, pre, table, cs aad7da3072-79430d easi190 

div> ore { 4 
Rem body iipaoe de ohhmain tse divhmaininner tse clear block witnavbar™ viidebar ont DET 


图 11-3: 探索 侧 边 栏 

















可 以 看 到 侧 边栏 图 片 在 链接 之 内 ， 链 接 位 于 一 个 段落 之 中 ， 而 段落 在 div 中 一 一 这 个 列表 
很 长 。 理 解 什么 时 候 图 片 在 链接 中 〈 或 不 在 ) ， 确 定 哪个 内 容 位 于 段落 标签 中 ， 以 及 找到 
其 他 页 面 结构 元 素 是 定位 和 抓 取 页 面 内 容 所 必需 的 。 


开发 者 工具 的 另外 一 个 非常 棒 的 用 处 是 研究 元 素 。 如 果 右 击 页 面 的 一 部 分 ， 你 应 该 会 看 到 
一 个 包括 了 一 些 有 用 的 用 于 网 页 抓 取 的 工具 的 菜单 。 图 11-4 展示 了 一 个 菜单 的 实例 。 












Conflicts Reports 






Take Action 





Tell Jewelry Companies: Conflict-Free Gold 
from Congo Matters to Me! 


Save image as... 
Copy image URL 
Copy image 








Q © lelements| Network Sources Timeline Profiles 





v<html xmins="http://www,w3.0rg/1999/xhtml™” xml:U 
Pp <head>.</head> 
v<body class="page not-front not-tlogged-in pagel 
page not-front not-logged-in page-take-action on 
logged-in no-sidebars" data-pinterest-extension- 
v<div id="page"> 
v<div id="page-inner"> 
<a name="top” id="navigation-top"”></a> 
<div id="skip-to-nav">~</div> 
<div id="header">-</div> 
<!-- /#header --> 
v<div id="main-tse"> 


Open image in new tab 
Search Google for this image | 


Print... lon-take-action 上 
Ipage-views not- 
©@ AdBlock » 
S Evernote Web Clipper » 
® Pinlt 
和 岛 The Great Suspender * | 





<div id="main-inner-tse" class="clear-b, J 
Y<div id="content-tse"> 
v<div id="content-inner"> 加 nh Meda en 
p<div id="content-header">-</div> | 
<!-- /#content-header --> 
Y<div id="content-area"> 
Y<div class="views View view view-take-action-list view-id-take action List view-display-id-page 1 view-dom-i 
v<div class="view-content"> 
<div class="views-row Views-row-1 views-row-odd views-row-first">.</div> 
ve<div class="views-row views-row-2 Views- row-even"> 
<div class="views-field-field-image-fid">.</div> 
p<div class="views-field-edit-node">-.</div> 
p<div class="views-field-title">..</div> 
p<div class="views-field-field-short-description-value">..</div> 














图 11-4: 检视 元 素 


如 果 点 击 “检视 元 素 ” 选 项 ， 开 发 者 工具 应 该 会 在 源 代 码 中 打开 那个 元 素 。 这 是 一 个 非常 


有 用 的 特性 ， 可 用 于 与 内 容 交 互 ， 以 及 查看 其 在 代码 中 的 位 置 。 
除了 能 够 在 浏 


HI DR 


vi 





中 同 元 素 交互 之 外 ， 你 还 可 以 在 源 代码 部 分 同 元 素 交 互 。 图 11-5 展示 了 


通过 在 标记 结构 区 域 右 击 一 个 元 素 得 到 的 菜单 类 型 。 可 以 看 到 复制 CSS 选择 器 或 XPath 选 


择 器 (我 们 会 在 本 章 中 使 用 这 两 者 定位 和 抽取 网 站 内 容 ) 的 选项 。 
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TAKE ACTION NOW > 


in Sudan and South Sudan are e 
coniflict connections between the two are deepel 
Unprecedented levels of violence and clashes st 
Sudan, despite an agreement to “end the ‘conflic 












Add Attribute 


Take Action Now: Ask the U.S. Governmen 







Force Element State » 


















for Sudan and South Sudan. 
Edit as HTML Take Action Now >> 
Copy CSS Path 
Q 日 | Elements Copy XPath Resources Audits Console 
E e">.</div> 
eld-short-description-value"> 
Cut Ek"> 
Copy 
Paste Gy">-</div> 
Delete Fow-2 views- row-even"> 
1Ld-image-fid">-</div> 
a 让 -node">_~</di 
Scroll into View i 
nt"> 
Break on... » 











</h2> 
</span> 











图 11-5: 元 素 选 项 


对 于 不 同 的 浏览 器 ， 工 具 的 语言 和 交互 可 能 差别 很 大 ， 但 是 菜单 选项 应 该 同 
在 这 里 描述 的 类 似 ， 这 应 该 让 你 对 如 何 访问 数据 和 这 些 交互 操作 有 了 一 些 了 
解 。 


下 

。 在 开发 者 工具 中 ， 通 常会 有 一 个 检视 标签 ， 展 示 当 前 元 素 的 父 元 素 列表 。 该 列表 中 的 
ea 
中 ， 这 个 列表 在 开发 者 工具 和 上 方 页 面 之 间 的 灰色 部 分 。 


我 们 已 经 查看 了 Web 页 面 的 组 织 结构 ， 以 及 如 何 同 它们 交互 来 更 好 地 理解 内 容 的 位 置 。 现 
在 来 研究 浏览 器 中 让 网 页 抓 取 更 加 简单 的 其 他 强大 工具 。 


11.2.2 网络/ 时 间 线 : 页 面 是 如 何 加 载 的 


分 析 开 发 者 工具 中 的 时 间 线 (Timeline) / 网络 (Network) 标签 将 让 你 深刻 理解 页 面 内 容 
是 如 何 加 载 的 以 及 加 载 的 顺序 。 页 面 加 载 的 时 间 和 方式 可 以 极 大 地 影响 你 决定 抓 取 页 面 的 
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方式 。 有 时 ， 理 解 内 容 来 源 是 抓 取 所 需 内 容 的 “快捷 方式 。 

网 络 或 时 间 线 标签 展示 了 已 加 载 的 URL、 加 载 顺序 和 加 载 所 需 时 间 。 图 11-6 展示 了 
Enough 项 目 页 面 在 Chrome 中 网 络 标签 的 样子 。 对 于 不 同 的 浏览 器 ， 你 可 能 需要 重新 加 载 
页 面 ， 来 查看 网 络 标签 页 面 的 内 容 。 
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Q 日 Elements INetwork| Sources Timeline Profiles Resources Audits Console 








Oo 汪 三 国 Preservelog 加 Disable cache 
[Fitte! All ED Stylesheets Images Media Scripts XHR Fonts WebSockets 
Name Status Size Time 
path Method Text Type Initiator Content Latengy Timel 
[| take action 200 7.0KB 392ms 

SEE Et :other 238kB 389ms 









http://www.enoughproject.org/take_action 











图 11-6， 一 个 页 面 的 网 络 标签 
由 于 在 网 络 标签 中 只 有 一 个 请 求 ， 可 以 看 到 整个 页 面 在 一 次 调用 中 加 载 完成 。 这 对 于 网 页 
抓 取 器 来 说 是 很 棒 的 消息 ， 因 为 这 意味 着 通过 一 个 请 求 可 以 获得 一 切 。 

如 果 点 击 这 个 请 求 ， 可 以 看 到 更 多 的 选项 ， 包 括 响应 的 源 代码 ( 见 图 11-7)。 当 页 面 通过 


许多 不 同 的 请 求 加 载 时 ， 查 看 每 个 请 求 的 内 容 对 于 定位 所 需 内 容 很 重要 。 如 果 你 需要 额外 
的 数据 来 加 载 站 点 ， 可 以 通过 点 击 网 络 标签 中 的 头 部 标签 来 研究 头 部 和 cookie。 














| Take Action Now: Send a message to industry leaders asking them to 
ii ii js fram Canon 一 一 


Q OD Elements |Network| sources Timeline Profiles Resources Audits Console 








二 泻 过 目 Preservelog 圈 Disable cache 


a Ee | a Stylesheets Images Media Scripts XHR Fonts Websockets Other 





Name 
Path x Headers raiew Revoose En Timing 


[S| take_action 
忆 


1 | 
2 | <html xmins="http://www.w3.0rg/1999/xhtml" xml:lang="en" lang="en" dir="1ltr"> 

了 | <head> 

才 | <meta http-equiv="Content-Type” content="text/html; charset=utf-8” /> 

5 <script type="text/javascript">var sf startpt=(new Date()).getTime()</script> 

6 <!-- page-take action.tpl.php --> 

7 <meta property="o0g:yurl" content="http://www.enoughproject.org/take action”/> 

8 <meta property="0g:image” content="http://enoughproject.org/files/enough-project-exclamation.p 


9 <meta property="0g:title” content="Take Action | Enough Project” /> 

16 <title>Take Action | Enough</title> 

11 <link rel="alternate”" type="application/rss+xml” title="Enough RSS" href="/rss.xml" /> 

12 <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> 

13 <link rel="shortcut icon" href="/files/enough favicon.ico" type="image/x-icon” /> 

14 <Link href="http://fast.fonts.com/cssapi/912e6441-b63e-4313-b1a6-88721leb354bb ,css” rel="styles 
15 <Link type="text/css" relL="styLesheet”media="atL”href="/fiLes/css/cSs_a6ad7da36f28b694b4ca39 





16| <Link type="text/css”rel="styLesheet”media="print”href="/fiLes/css/css_f8ffbbab0f2a65234e2764f5 











图 11-7: 网 络 响应 


来 查看 一 个 有 着 复杂 网 络 标 签 的 相似 组 织 的 页 面 。 打 开 你 的 网 络 标 签 ， 使 用 浏览 器 访问 
Fair phone 倡议 站 点 上 的 #WeAreFairphone 页 面 (http://www .fairphone.com/we-are-fairphone/， 
图 11-8)。 








网 页 抓 取 : 获取 并 存储 网 络 数据 | 231 




















Q 日 Elements lINetwonk| Sources Timeline Profiles Resources Audits Console 
大 四 了 三 过目 Preservelog 回 Disablecache 
F _ All € Stylesheets Images Media Scripts XHR Fonts WebSockets 
Na Method Sn Type Initiator Ws i Timel 
| we-are-fairphone/ 200 2.8 KB 468 ms 
<> GET Ci text/html Other Sp ee ”| 
| fairphone?scroll=auto&cols=4&format=em 200 embed?app=fairphone.. 5.9KB 228ms 
<> GET text/html a 
SS) apps.twinesocial.com 人 N OK Script 97 KB 226 ms 
==| 1ldYUT3brY_js?version=41 10.8 KB 59ms 
pt static.ak.facebook.com/connect/xd_arbiter 30.1 KB 56m 
三 | 1ldYU13brY_js?version=41 200 sdkjs:57 10.8KB 134ms 
>| GET text/html E 3 
3) s-static.ak.facebook.com/connect/xd_arbiter OK Script 30.1KB 132ms 
二 | follow_button.html?screen_name=Fairpho... 1432574831.js:7 08B 1ms 
<> A GET (canceled) 
=S) platform.twitter.com/Wwidgets Script 0B - 
司 ] Follow_button.html?screen_name=Fairpho... GF hii 1432574831.s:7 0oB 321ms 
SS platform.twitter.com/widgets . Script 0B - 
二 | follow_button.html?screen_name=Fairpho... 200 1432574831.js:46 27.7 KB 69ms 
oC 2 GET text/html 3 i 
= platform,twitter.com/widgets OK Script 70.8 KB 36ms 











11-8: 有 很 多 页 面 的 网 络 标签 





你 可 以 立即 看 到 这 个 页 面 正在 处 理 更 多 的 请 求 。 点 击 每 一 个 请 求 ， 你 可 以 看 到 每 一 个 请 求 
加 载 的 内 容 。 请 求 顺 序 显 示 在 网 络 标签 中 的 时 间 线 上 。 这 可 以 帮助 你 理解 如 何 抓 取 和 处 理 
页 面 ， 来 得 到 需要 的 内 容 。 


通过 点 击 每 一 个 请 求 ， 可 以 看 到 初始 页 面 加载 后 再 加 载 大 部 分 内 容 。 点 击 初始 页 面 的 请 
求 ， 会 发 现 并 没有 什么 内 容 。 我 们 想 要 问 的 第 一 个 问题 是 : 这 里 是 否 有 一 个 JavaScript 请 
求 或 其 他 的 请 求 使 用 JSON 加 载 内 容 ?” 如 果 有 的 话 ， 对 于 我 们 的 脚本 来 说 ， 这 可 能 是 一 个 
恰当 的 “快捷 方式 。 


你 知道 如 何 解析 和 读 取 JSON (第 3 章 ) ， 所 以 如 果 你 在 网 络 标签 中 找到 一 个 
URL， 伴 随 着 一 个 JSON 响应 ， 其 中 保存 着 你 需要 的 数据 ， 那 么 你 可 以 使 用 
这 个 URL 来 获得 数据 ， 之 后 直接 从 响应 中 解析 数据 。 你 需要 意识 到 所 有 可 
能 在 请 求 中 需要 发 送 的 头 部 (展示 在 网 络 标签 中 的 头 部 小 节 )， 以 得 到 正确 
的 响应 。 















































如 果 这 里 没有 简单 的 JSON URL 匹配 你 需要 的 信息 ， 或 者 信息 散落 在 几 个 不 同 的 的 请 求 
中 ， 需 要 人 工整 合 它们 到 一 起 ， 那 么 可 以 确定 ， 你 需要 使 用 一 个 基于 浏览 器 的 方法 来 抓 取 
站 点 。 基 于 浏览 器 的 网 页 抓 取 允许 你 读 取 看 到 的 页 面 ， 而 不 仅 是 每 一 个 请 求 。 如 果 你 需要 
在 正确 抓 取 内 容 之 前 同一 个 下 拉 菜 单 交 互 ， 或 执行 一 系列 基于 浏览 器 的 操作 ， 这 可 以 很 有 
用 。 


网 络 标 签 帮助 你 找到 包含 所 需 内 容 的 请 求 ， 以 及 是 否 有 优秀 的 备 选 数据 源 。 我 们 接 下 来 会 
查看 JavaScript， 看 看 这 是 否 也 会 提供 一 些 关 于 抓 取 器 的 想法 。 

11.2.3 控制 台 : 同 JavaScript 交 互 

现在 已 经 分 析 了 页 面 的 标记 和 结构 ， 以 及 页 面 加 载 和 网 络 请 求 的 时 间 线 ， 让 我 们 转 到 





























JavaScript 控制 台 ， 来 看 一 下 通过 和 运行 在 页 面 上 的 JavaScript 交互 ， 可 以 学 到 什么 。 


如 果 你 已 经 对 JavaScript 很 熟悉 ， 使 用 起 来 应 该 相当 简单 ， 如 果 你 从 未 同 JavaScript 交互 
过 ， 花 一 些 时 间 查 看 关于 JavaScript 课程 的 介绍 (http://www.codecademy.com/en/tracks/ 
javascript) 会 很 有 用 。 你 只 需要 理解 JavaScript 的 基本 语法 ， 能 够 通过 控制 台 同 页 面 上 的 
元 素 交 互 。 我 们 会 从 学 习 JavaScript 和 基本 的 样式 开始 ， 学 习 如 何 使 用 控制 台 界 面 。 


1. 样式 基础 

每 一 个 网 页 都 会 使 用 一 些 样式 元 素来 帮助 它 组织 内 容 、 控 制 内 容 的 大 小 和 颜色 ， 并 在 视觉 
上 修改 内 容 。 当 浏览 器 开始 开发 HTML 标准 ， 样 式 标准 也 就 诞生 了 。 样 式 标准 的 产物 是 
级 联 样 式 表 ， 即 CSS， 这 为 我 们 提供 了 给 页 面 添 加 样式 的 标准 方式 。 举 个 例子 ， 如 果 想 
要 所 有 的 标题 使 用 不 同 的 字体 ， 或 所 有 的 照片 在 页 面 居中 显示 ， 你 需要 在 CSS 中 编写 这 
些 规则 。 


CSS 允许 样式 级 联 ， 或 者 从 父 样 式 和 样式 表 中 继承 。 如 果 我 们 为 整个 站 点 定义 一 个 样式 集 
合 ， 内 容 管 理 系 统 将 很 容易 让 每 个 页 面 看 起 来 相似 。 即 使 我 们 有 一 个 复杂 站 点 ， 它 有 很 多 
不 同 的 页 面 类 型 ， 我 们 也 可 以 定义 一 个 主要 的 CSS 文档 和 几 个 次 要 的 文档 ， 在 页 面 需要 额 
外 的 样式 时 加 载 次 要 文档 。 

CSS 有 效 ， 因 为 它 定义 了 允许 通过 标签 中 的 属性 组 合 DOM 元 素 的 规则 。 是 否 记 得 在 第 3 
章 研究 XML 时 ， 讨 论 过 艇 套 属性 ? CSS 同样 使 用 这 些 符 套 的 属性 。 让 我 们 学 习 使 用 元 
素 检视 工具 。 因 为 你 很 可 能 仍然 在 Fairphone 站 点 ， 所 以 让 我 们 看 一 些 页 面 上 的 CSS 属 
性 。 当 在 底部 工具 栏 高 亮 一 个 元 素 时 ， 会 看 到 一 些 与 页 面 中 元 素 相 关 的 文本 展示 在 旁边 
(图 11-9)。 




















图 11-9: CSS 简介 


在 这 个 例子 中 ， 我 们 已 经 了 解 了 div 的 含义 ， 但 是 什么 是 contont-block ? 使 用 检视 技术 
看 一 下 HTML 代码 ( 右 击 页 面 上 的 元 素 ， 选 择 “ 检 视 元 素 ”)。 

我 们 看 到 content-block 是 CSS 类 (在 图 11-10 中 的 舱 套 属性 class="content-block" 中 )。 
它 定 义 在 一 个 起 始 div 标签 中 ， 同 时 这 个 div 保存 着 所 有 其 他 子 标签 。 说 到 CSS 类 ， 在 页 
面 的 这 个 部 分 中 ， 你 能 看 到 多 少 个 类 ? 有 好 多 啊 ! 
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= <header role="navigation">..</header> 
了 <div id="weAreFairphone"> 
<div class="container content"> 
::before 
v<div class="topContent"> 
p<div class="row">..</div> 
Y<div class="row movement-header"> 
::before 


v<div class="incentive"> IN 


::before 
v<div class="row"> 
: :before 
v<div class="col-sm-3"> 
v<div class="image"> 
<img src="http://www.fairphone.com/wp-content/uyploads/2014/89/social-mc 
</div> 
</div> 
p<div class="col-sm-9">.</div> 
::after 
</div> 








11-10: CSS 类 


像 类 一 样 ， 同 样 有 CSS ID。 让 我 们 找 一 个 ( 见 图 11-11)， 看 看 它 与 类 有 什么 不 同 。 











I PP ---r---- -~ 一-- -一 r-~----- ~ 
= <header role="navigation">..</header> 
<div id="weAreFairphone"> 
Y<div class="container content"> 
::before 
v<div class="topContent"> 
p<div ctass=" row">-</div> 
Y<div class="row movement-header"> 
::before 
Y<div class="content-block"> 
Y<div class="incentive"> 
::before 
Y<div class="row"> 
::before 
Y<div class="col-sm-3"> 
Y<div class="image”> 
<img src="http://www.fairphone.com -Content/uploads 
</div> 





PEOntent div.row.movement-header 





图 11-11; CSS ID 


HTML 看 起 来 很 类 似 ， 但 是 在 导航 栏 的 符号 中 使 用 了 一 个 哈 希 或 英镑 符号 。# 是 一 个 适用 
于 了 D 的 CSS 选择 器 。 对 于 类 ， 我 们 使 用 . (如 同 在 div.content-block 中 展示 的 )。 


CSS 结构 和 语法 要 求 id 必需 是 唯一 的 ， 但 是 你 可 以 有 很 多 的 元 素 有 相同 的 
class。 尽 管 页 面 不 总 是 符合 这 一 结构 ， 但 是 这 也 值得 注意 。 一 个 CSS id 相 
对 于 一 个 class 有 更 大 的 特异 性 。 一 些 元 素 不 只 有 一 个 class， 所 以 它们 可 
以 应 用 多 个 样式 。 








人 








使 用 右 击 菜单 ， 在 页 面 上 复制 CSS 选择 器 相当 简单 。 如 果 你 已 经 了 解 了 CSS， 这 些 知识 会 帮助 
你 进行 网 页 抓 取 。 如 果 你 不 是 大 了 解 CSS， 但 是 希望 更 深入 地 探索 它 ， 可 以 查看 Codecademy 
关于 CSS 课程 的 介绍 (https://www.codecademy.com/courses/web-beginner-en-TIhFi/0/1) 或 查看 
Mozilla 开发 者 网 络 的 参考 和 指南 (https://developer.mozilla.org/en-US/docs/Web/CSS ) 。 















































现在 我 们 进一步 了 解 了 CSS， 了 解 了 它 是 如 何 样式 化 页 面 的 ， 但 是 你 可 能 会 问 ， 在 浏览 器 
终端 中 CSS 需要 做 什么 ”好 问题 ! 让 我 们 回顾 一 下 jQuery 和 JavaScript 的 基础 知识 ， 这 样 
可 以 看 到 CSS 是 如 何 同 页 面 上 的 内 容 交互 的 。 

2. jQuery 和 JavaScript 

JavaScript 和 jQuery 的 演化 历史 要 比 HTML 和 CSS 悠久 得 多 ， 一 部 分 原因 是 JavaScript 的 
开发 在 很 长 一 段 时 间 里 没有 一 整套 的 标准 。 从 某 种 意义 上 来 讲 ，JavaScript 是 〈 在 某 种 程 
度 上 仍然 是 ) 网 站 版 图 上 一 片 莞 鞠 的 西部 风光 。 






































即使 JavaScript 在 过 去 的 10 年 间 改 变 了 很 多 , 但 有 10 年 历史 的 脚本 仍然 经 
常 运行 在 一 些 浏览 器 中 ， 这 意味 着 推进 标准 化 〈 如 何 编写 JavaScript 和 哪些 
事 在 JavaScript 中 不 允许 ) 的 进程 相对 于 HTML 和 CSS 有 些 慢 。 























JavaScript 不 是 标记 语言 ， 而 是 一 门 脚本 语言 。 因 为 Python 也 是 一 门 脚本 语言 ， 所 以 你 
以 将 一 些 已 经 学 过 的 东西 一 一 函数 、 对 象 、 类 、 方 法 一 一 应 用 到 对 JavaScript 的 理解 中 去 。 
同 Python 一 样 ， 有 其 他 的 库 和 包 帮 助 你 编写 清晰 、 简 单 和 高 效 的 JavaScript 代码 ， 以 便于 
浏览 器 和 人 们 理解 。 


jQuery (https:Wjquery.com/) 是 一 个 JavaScript 库 ， 很 多 大 型 的 网 站 使 用 它 以 期 让 JavaScript 
更 易 读 、 编 写 更 简单 ， 同 时 仍然 允许 浏览 器 (和 它们 不 同 的 JavaScript 引擎 ) 来 解析 脚本 。 











早 在 2005~2006 年 ,jQuery 引入 了 简化 和 标准 化 JavaScript 的 想法 ， 为 
JavaScript 开发 者 提供 了 工具 ， 这 样 他 们 就 不 需要 从 零 开 始 编写 所 有 的 代码 。 
jQuery 的 确 推动 了 JavaScript 向 前 发 展 ， 通 过 强大 而 易于 解释 的 方法 ， 以 及 
在 选择 页 面 元 素 时 与 CSS 更 紧密 的 联系 ， 创 建 了 一 个 更 加 面向 对 象 的 方法 。 
































自从 jQuery 被 开发 之 后 ，JavaScript 和 CSS 的 关系 便 更 加 紧密 了 ， 并 且 很 多 新 的 JavaScript 
框架 都 基于 这 个 面向 对 象 的 方法 。 如 果 一 个 站 点 正在 运行 jQuery， 使 用 CSS 标识 符 同 页 面 
上 的 元 素 交 互 很 简单 。 假 如 我 们 想 要 从 #WeAreFairphone 页 面 (图 11-12) 上 正在 查看 的 
content-block 类 抓 取 内 容 ， 通 过 JavaScript 控制 台 该 如 何 实现 呢 ? 






































Q DD Elements Network Sources Timeline Profiles Resources Audits lconsolel| 

i 定 <topframe> v Preservelog 

[Fi | Regex 《CD Errors Warnings Info Logs Debug Hide network messages 
Consider using 'dppx” units, as in CSS “dpi”means dots-per-CSS-inch, not dots-per-physical-in 
screen. In media query expression: (-webkit-min-device-pixel-ratio: 1.5), (min-resolution: 144¢ 


@ Received message of type object from http://platform.twitter.com, expected a string 
©@ GET https://pbs. twimg. com/profile images/592232154928676864/EHgyumqld normal.ipg 464 {Not Found 


removing busted image 
给 入 的 Jax Scrip 


$( div.content-bloc 
控制 台 响 应 










Eds 日] 
<div class="content-b SN 











图 11-12: jQuery 控制 台 
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由 于 网 站 正在 运行 jQuery， 直 接 在 控制 台 标 签 第 一 行 中 输入 下 面 的 代码 : 
$('div.content-block'); 


敲 击 回 车 键 ， 控 制 台 会 响应 那个 元 素 。 点 击 控制 台中 的 响应 ， 你 会 看 到 子 元 素 ， 以 及 该 元 
素 的 子 元 素 。 可 以 同一 些 基 本 的 jQuery (例如 ，$(elem); ) 一 起 使 用 CSS 选择 器 ， 来 选择 
其 他 页 面 上 的 元 素 。 使 用 $ 和 括号 会 告诉 jQuery 我 们 正在 寻找 一 个 与 括号 中 的 字符 串 传 递 
的 选择 器 相 匹 配 的 元 素 。 


尔 能 使 用 控制 台 来 选择 ID 为 weAreFairphone 的 div 吗 ? 你 是 否 只 能 选择 页 面 上 的 锚 标 记 
(a) ? 在 控制 台中 尝试 一 下 。 命 令 行 和 jQuery 提供 了 一 个 简单 的 方式 来 使 用 CSS 选择 器 
或 标签 名 称 同 页 面 上 实际 的 元 素 交 互 ， 并 从 这 些 元 素 中 拉 取 内 容 。 但 是 这 与 Python 有 什么 
关系 呢 ? 
因为 jQuery 改变 了 人 们 对 CSS 选择 器 用 处 的 看 法 ，Python 抓 取 库 现在 使 用 这 些 选 择 器 来 
遍历 和 寻找 网 页 中 的 元 素 。 就 像 你 可 以 在 浏览 器 控制 台中 使 用 简单 的 jQuery 选择 器 ， 你 
可 以 在 Python 抓 取 器 代码 中 使 用 它 。 如 果 想 学 习 更 多 的 jQuery 知识 ， 建 议 你 访问 jQuery 
学 习 中 心 (https:Wlearn.jquery.com/)， 或 在 Codecademy (http://www.codecademy.com/en/ 
tracks/jquery) 或 Code School (https://www.codeschool.com/courses/try-jquery) 上 学 习 课 程 。 
如 果 碰 到 一 个 没有 使 用 jQuery 的 网 站 ， 那 么 jQuery 在 你 的 控制 台中 就 不 会 工作 。 为 了 只 
使 用 JavaScript 通过 类 来 选择 元 素 ， 运 行 : 
document.getElementsByClassName('content-block'); 


你 应 该 看 到 相同 的 div， 并且 能 够 通过 相同 的 方式 在 控制 台中 浏览 。 现 在 你 大 致知 道 了 可 
以 利用 的 工具 ， 所 以 让 我 们 更 仔细 地 看 一 下 如 何 确定 抓 取 页 面 中 感 兴趣 内 容 的 最 佳 方式 。 
首先 ， 我 们 会 学 习 如 何 研究 页 面 中 所 有 的 部 分 。 


11.2.4 页 面 的 深入 分 析 





















































一 个 开发 Web 抓 取 器 的 好 方式 是 先 在 浏览 器 中 分 析 内 容 。 首 先 选 择 你 最 感 兴趣 的 内 容 ， 并 
且 在 浏览 器 检视 或 DOM 标签 中 观察 。 数 据 是 如 何 组 成 的 ?哪里 是 父 市 点 ?内 容 包 含 在 许 





多 元 素 中 ， 还 是 少量 元 素 中 ? 


在 开始 抓 取 一 个 页 面 之 前 ， 通 过 查看 内 容 的 限制 信息 和 站 点 的 robots.txt 文 
件 ， 来 查看 自己 是 否 有 权利 抓 取 这 个 页 面 。 你 可 以 输入 域名 ， 随 后 输入 / 
robots.txt 找到 这 个 文件 (例如 ，http://oreilly.com/robots.txt) 。 

















之 后 移 向 网 络 /时 间 线 标签 ( 见 图 11-6)。 页 面 的 第 一 次 加 载 看 起 来 是 什么 样子 ”页面 加 载 
中 是 否 使 用 了 JSON ?如果 是 的 话 ， 文 件 看 起 来 什么 样子 ?是 否 大 部 分 内 容 在 初次 请 求 之 
后 加 载 ? 所 有 的 这 些 答案 会 帮助 你 确定 要 使 用 哪 种 类 型 的 抓 取 器 ， 以 及 抓 取 该 页 面 有 多 困难 。 
然后 ， 打 开 控 制 台 标签 。 尝 试 使 用 你 检视 得 到 的 信息 ， 同 包含 重要 内 容 的 元 素 交 互 。 对 于 
这 个 内 容 ， 编 写 一 个 jQuery 选择 器 有 多 简单 ?在 整个 域名 下 ， 你 的 选择 器 有 多 可 靠 ? 你 是 
否 可 以 打开 一 个 类 似 的 页 面 ， 使 用 该 选择 器 ， 并 得 到 类 似 的 结果 ? 
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如 果 在 JavaScript 控制 台中 使 用 jQuery 或 JavaScript 很 容易 与 你 的 内 容 交 互 ， 
那么 使 用 Python 处 理 可 能 也 会 很 简单 。 如 果 使 用 jQuery 选择 一 个 元 素 很 困 
难 ， 或 者 在 一 个 页 面 上 可 以 使 用 的 代码 在 另 一 个 相似 的 页 面 上 不 起 作用 ， 很 
可 能 在 Python 中 也 同样 困难 。 















































不 能 使 用 Python 工具 正确 解析 的 网 页 少 之 又 少 。 我 们 会 教 给 你 一 些 技 巧 ， 来 应 对 混乱 的 网 
页 、 内 联 JavaScript、 格 式 化 糟糕 的 选择 器 ， 以 及 你 能 在 万 维 网 的 代码 中 发 现 的 所 有 精 糕 
的 选择 ， 同 时 还 会 给 出 一 些 最 佳 实践 。 首 先 ， 看 看 加 载 和 读 取 网 页 。 


11.3 ”得 到 页 面 : 如 何 通 过 互联 网 发 出 请 求 
网 页 抓 取 器 的 第 一 步 是 …… 连接 到 互联 网 。 让 我 们 温习 一 下 连接 互联 网 的 一 些 基 础 知识 。 


当 你 打开 浏览 右 ， 输 入 一 个 站 点 名 称 或 者 搜索 词 ， 并 且 殴 击 回 车 键 的 时 候 ， 你 正在 发 出 一 
个 请 求 。 大 多 数 情况 下 ， 这 是 一 个 HITP ( 超 文本 传输 协议 ) 请 求 〈 或 者 HTTPS 一 一 安全 
版 本 的 HTTP 协议 )。 你 很 可 能 在 创建 一 个 GET 请 求 ， 这 是 在 互联 网 上 使 用 的 众多 请 求 方 
法 之 一 (https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol#Request_methods)。 浏 览 
器 会 处 理 这 些 请 求 ， 同 时 解析 输入 ， 以 确定 你 是 在 请 求 一 个 网 站 还 是 一 个 搜索 词 。 根 据 该 
分 析 结 果 ， 浏 览 器 会 返回 搜索 结果 或 你 请 求 的 网 站 。 

让 我 们 看 一 下 用 于 请 求 URL 的 Python 内 置 库 : urllib (https://docs.python.org/2/library/ 
urllib.html) 和 urtlib2 (https://docs.python.org/2/library/urllib2.html)。 这 是 用 于 URL 请 求 
的 两 个 Python 标准 库 。 使 用 urttib2 是 个 好 的 想法 ， 但 是 在 urLtLib 中 有 几 个 很 有 用 的 方 
法 。 让 我 们 来 看 一 下 : 

import urllib 

import urllib2 


























google = urllib2.urlopen('http://goo0gle.conmn') ©O 
google = google.read() @ 
print google[:200] © 


url = "http://googLe.com?q=' 
url_with query = url + urllib.quote plus('python web scraping') @ 


web_search = urllib2.urlopen(url_with_query) 
web_search = web_search.read() 


print web_search[:200] 


@ 使 用 urlopen 方法 来 开始 请 求 。 这 会 返回 一 个 缓冲 区 ， 在 这 里 你 可 以 读 取 网 页 的 内 容 。 

名 读 取 整个 页 面 的 内 容 到 googte 变量 中 。 

四 打印 前 200 个 字符 ， 这 样 可 以 看 到 页 面 的 开端 。 

@ 使 用 quote_plus 方法 来 用 加 号 转 义 字符 串 。 这 在 处 理 网 站 的 查询 字符 串 时 很 有 用 一 一 
我 们 想 要 使 用 Google 搜索 网 页 结果 ， 同 时 我 们 知道 Google 希望 得 到 一 个 在 单词 之 间 使 
用 加 号 连接 的 查询 字符 串 。 
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看 到 了 吗 ? 访问 URL 或 服务 (例如 Google 搜索 )、 得 到 响应 ， 并 读 取 响应 都 非常 简单 。 
urllib 和 urLLib2 都 有 其 他 请 求 方法 ， 也 能 够 添加 头 部 信息 、 发 送 基本 认证 ， 以 及 组 装 更 
加 复杂 的 请 求 。 

根据 请 求 的 复杂 度 ， 你 还 可 以 使 用 requests 库 (http://docs.python-requests.org/en/latest/) 。 
a s 使 用 urllib 和 urtlib2， 让 复杂 的 请 求 更 容易 格式 化 和 发 送 。 如 果 你 需要 格式 
化 一 个 复杂 的 文件 post 请 求 (http://docs.python-requests.org/en/latest/user/quickstart/#more- 
a oe post-requests)， 或 查 看 session (http://docs.python-requests.org/en/latest/user/ 
quickstart/#cookies) 中 还 存留 了 什么 cookie， 或 者 检查 响应 状态 码 (http://docs.python- 
requests.org/en/latest/user/quickstart/#response-status-codes) ，requests 是 一 个 很 棒 的 选择 。 


在 检查 网 络 (或 时 间 线 ) 标签 时 ， 有 些 时 候 会 发 现 一 些 使 用 特殊 HTTP 头 
(http://en.wikipedia.org/wiki/List_of_HTTP_header_fields)、cookies 或 其 他 认 
证 方法 的 页 面 。 你 可 以 使 用 urtlib2、urllib 或 requests 库 ， 同 请 求 一 起 发 


送 这 些 特殊 字段 。 











让 我 们 看 一 些 requests 工具 的 实际 使 用 : 
import requests 
google = requests.get('http://goo0gle.con') ©O 
print google.status_code @ 
print google.content[:200] 
print google.headers © 


print google.cookies.items() @ 


@ 调用 requests 库 的 get 方法 发 送 一 个 GET 请 求 到 URL 地 址 。 

@@ 调用 status_code 属性 来 确保 得 到 了 200 响应 (正确 地 完成 请 求 )。 如 果 没 有 得 到 200， 
可 以 以 不 同方 式 执行 脚本 逻辑 。 

人 @ 检查 响应 的 headers 属性 来 看 Google 返回 了 什么 头 部 。 可 以 看 到 headers 属性 是 一 个 字典 。 

@ 使 用 cookies 属性 读 取 Google 在 响应 中 发 送 的 cookie， 并 且 在 返回 的 字典 上 调用 items 
方法 来 展示 键 / 值 对 。 


使 用 requests 库 ， 可 以 基于 响应 和 它 的 属性 做 不 同 的 抉择 。 它 很 容易 使 用 ， 并 且 有 很 棒 
的 文档 。 无 论 使 用 urLLib 还 是 requests， 你 可 以 用 简单 的 几 行 Python 代码 创建 简单 和 复 
杂 的 请 求 。 现 在 你 了 解 了 请 求 网 页 的 基本 知识 ， 可 以 开始 解析 响应 了 。 首 先 学 习 Beautiful 
Soup (https:Wwww.crummy.com/software/BeautifulSoup/bs4/doc/) ， 一 个 简单 的 Python 网 页 
解析 器 


11.4 使 用 Beautiful Soup 读 取 网 页 


Beautiful Soup 是 最 流行 、 最 简单 的 用 于 网 页 抓 取 的 Python 库 之 一 。 对 于 不 同 的 需求 ， 在 
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网 页 抓 取 中 它 可 能 提供 了 你 所 需 的 一 切 。 它 很 简单 、 直 接 ， 并 且 很 容易 学 习 。 让 我 们 看 一 
下 如 何 使 用 Beautiful Soup 解析 页 面 。 首 先 ， 使 用 pip 安装 这 个 库 (使 用 beauttfutsoup4， 
因为 早期 的 版 本 已 经 不 再 支持 和 开发 了 ) : 
pip install beautifulsoup4 

让 我 们 重新 看 一 下 在 早 些 时 候 检查 过 的 一 个 简单 的 页 面 ， 即 Enough 项 目的 Take Action 页 
面 (http:/www.enoughproject.org/take_action)。 我 们 想 要 看 一 下 是 否 可 以 正确 地 解析 所 有 
的 活动 调用 ， 并 且 保 存 它们 。 下 面 是 导入 页 面 到 Beautiful Soup 中 的 实例 ， 这 样 我 们 可 以 
开始 读 取 它 : 





























from bs4 import Beautifulsoup © 
import requests 


page = requests.get('http://www.enoughproject.org/take_action') © 
bs = BeautifuLSoup(page.content) © 

print bs .tittLe 

print bs.find_all('a') @ 

print bs.find_all('p') 


@ 首先 ， 直 接 从 beautifulsoup4 库 导 入 解析 器 。 

@ 使 用 requests 库 来 抓 取 页 面 上 的 内 容 ， 这 行 代码 将 响应 (和 它 的 内 容 ) 赋值 给 page 变量 。 

上 @ 为 了 开始 使 用 Beautiful Soup 解析 ， 这 行 代码 传递 页 面 内 容 到 Beautifulsoup 类 。 可 以 使 
用 content 属性 获取 响应 的 源 页 面 。 

@@ 一 旦 解析 了 页 面 对 象 ， 可 以 使 用 它 的 属性 和 方法 。 这 行 代码 让 Beautiful Soup 找到 页 国 
中 所 有 的 a 标签 (或 链接 )。 


可 以 打开 一 个 页 面 ， 读 取 啊 应 到 一 个 Beautiful Soup 对 象 ， 并 且 使 用 这 个 对 象 的 属性 来 查 
看 标题 、 页 面 中 所 有 的 段落 , 以 及 页 面 上 所 有 的 链接 。 


我 们 已 经 学 习 了 HTML 中 有 关 家 族 关系 的 知识 ， 下 面 查 看 一 下 页 面 中 的 关系 : 


header_children = [c for c in bs.head.children] @ 
























































print header_children 
navigation bar = bs.find(id="globalNavigation") @ 


for d in navigation bar.descendants: © 
print d 


for s in d.previous_siblings: @ 
print s 

@ 使 用 列表 生成 式 创 建 一 个 页 面 中 头 部 的 所 有 子 元 素 的 列表 。 通 过 将 Beautiful Soup 页 四 
对 象 和 .head ( 调 取 页 面 的 头 部 ) 以 及 .children 联系 在 一 起 ， 可 以 查看 所 有 包含 在 头 
部 中 的 节点 。 如 果 需 要 的 话 ， 可 以 解析 头 部 的 元 内 容 ， 包 括 页 面 描述 。 
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@ 如 有 果 使 用 开发 者 工具 观察 页 面 ， 你 会 看 到 导航 栏 使 用 一 个 CSS 选择 器 ID globalNavigation 
定义 。 这 行 代码 使 用 页 面 对 象 的 find 方法 ， 传 递 一 个 ID ， 并 且 定 位 导航 栏 。 

@ 使 用 导航 栏 的 descendants 方法 遍历 导航 栏 的 后 继 。 

@ 到 导航 栏 的 最 后 一 个 后 继 ， 这 行 代码 使 用 .previous_sibling 来 遍历 导航 元 素 的 邻居 。 


家 族 树 让 我 们 通过 Beautiful Soup 库 page 类 中 的 内 置 属性 和 方法 导航 。 正 如 可 以 从 头 部 和 
导航 栏 示 例 中 看 到 的 那样 ， 从 页 面 中 选择 一 个 区 域 ， 并 遍历 孩子 、 后 代 或 邻居 是 很 容易 
的 。Beautiful Soup 的 语法 非常 简单 ， 并 且 将 元 素 和 它们 的 属性 链 式 绑 定 到 一 起 ( 像 .head. 
children)。 对 此 有 了 了 解 之 后 ， 让 我 们 专注 于 页 面 的 主要 部 分 ， 看 一 下 是 否 可 以 拉 取 一 些 
可 能 感 兴趣 的 内 容 。 
如 果 通 过 开发 者 工具 观察 页 面 ， 会 注意 到 一 些 事 情 。 首 先 ， 看 起 来 每 一 个 动作 对 象 都 位 
于 一 个 views-row div 中 。 这 些 divs 有 许多 不 同 的 类 ， 但 是 它们 都 有 一 个 views-row 类 。 
这 是 开始 解析 的 好 起 点 。 标 题 位 于 一 个 hz 标签 中 ， 同 时 链接 也 在 该 hz 标签 中 ， 位 于 一 
个 销 标签 中 。 对 于 动作 的 调用 位 于 views-row div 的 子 div 中 的 段落 里 面 。 现 在 可 以 使 用 
Beautiful Soup 解析 页 面 。 

首先 ， 我们 想 要 利用 已 掌握 的 Beautiful Soup 知识 ， 以 及 对 页 面 结构 和 导航 结构 方式 的 理 
解 ， 找 到 内 容 。 下 面 是 完成 这 件 事 的 代码 : 


from bs4 import BeautifulSoup 
import requests 
























































page = requests.get('http://www.enoughproject.org/take_action') 
bs = BeautifulSoup(page.content) 

ta_divs = bs.find all("div", class ="views-row") © 

print len(ta_divs) 名 


for ta in ta_divs: 
title = ta.h2 @© 
Link = ta.a 


about = ta.find_all('p')@ 
print title, link, about 


@ 使 用 Beautiful Soup 找到 并 返回 类 中 包含 字符 串 views-row 的 所 有 divs。 

@ 打印 来 检查 数字 是 否 是 可 以 在 网 站 上 看 到 的 故事 行 数 ， 预 示 着 正确 地 匹配 了 行 数据 。 

@ 遍历 这 些 行 数据 ， 并 基于 页 面 的 研究 获取 想 要 的 标签 。 标 题 位 于 一 个 h2 标签 中 ， 并 且 
是 行 中 唯一 的 hz2 标签 。 链 接 是 第 一 个 锚 标 签 。 

@ 因为 不 确定 在 每 行 数据 中 有 多 少 个 段落 标签 ， 所 以 匹配 所 有 的 段落 标签 来 得 到 文本 。 由 
于 使 用 了 .find_all 方法 ，Beautiful Soup 返回 一 个 列表 ， 而 不 是 第 一 个 匹配 的 元 素 。 


你 应 该 会 看 到 类 似 于 下 面 的 输出 : 


<h2><a href="https://ssl1.americanprogress.org/o0/507/p/dia/action3/common/ 
public/?action_KEY=391">South Sudan: On August 17th, Implement "Plan B" </a></h2> <a 
href="https://ssL1.americanprogress.org/o/507/p/dia/action3/common/pubLic/ 
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?action_KEY=391">South Sudan: On August 17th, Implement "PLan B" </a> 
[<p>During President Obama's recent trip to Africa，the international community 
set a deadline of August 17 for a peace deal to be signed by South Sudan's 
warring parties....] 


这 些 内 容 可 能 随 着 站 点 更 新 而 改变 ， 但 是 你 应 该 会 看 到 一 个 h2 元 素 ， 之 后 是 一 个 锚 (a) 
元 素 ， 然 后 是 每 个 节点 段落 的 列表 。 当 下 的 输出 是 混乱 的 ， 不 仅 因 为 我 们 正在 使 用 一 个 
print， 还 因为 Beautiful Soup 打印 了 完整 的 元 素 和 它 的 内 容 。 相 对 于 完整 的 元 素 ， 我 们 
更 想 要 关注 于 必需 的 部 分 ， 也 就 是 标题 文本 、 链 接 hrefs 和 段落 文本 。 可 以 使 用 Beautiful 
Soup 来 仔细 地 查看 这 部 分 数据 : 

all_data = [] 











for ta in ta_divs: 
data_dict = {} 
data_dict['title'] = ta.h2.get text() ©@ 
data_dict['link'] = ta.a.get('href') @ 
data_dict['about'] = [p.get_ text() for p in ta.find_all('p')] © 
all_data.append(data_dict) 


print all_data 


@ 使 用 get_text 方法 抽取 所 有 来 自 HIML 元 素 的 字符 串 。 这 样 会 获得 标题 文本 。 

名 为 了 得 到 一 个 元 素 的 属性 ， 使 用 get 方法 。 当 看 到 <ahref="http://foo.com">Foo</a>， 
并 想 提 取 链 接 时 ， 可 以 调用 .get("href") 来 返回 href 值 ( 即 ，foo.com)。 

四 为 了 抽取 段落 文本 ， 使 用 get_text 方法 ， 遍 历 find_all 方法 返回 的 段落 。 这 行 代码 使 
用 列表 生成 式 来 编译 一 个 有 着 动作 内 容 调 用 的 字符 串 列 表 。 


现在 数据 和 输出 呈现 了 一 个 更 加 有 组 织 的 格式 。 在 变量 aLL_data 中 ， 保 存 了 一 个 所 有 数 
据 的 列表 。 现 在 每 一 个 数据 输入 都 和 匹配 键 保存 在 其 字典 中 。 我 们 用 一 种 整洁 的 方式 ， 使 
用 一 些 新 的 方法 (get 和 get_text) 从 页 面 抓 取 了 数据 ， 并 且 数 据 现在 存放 在 数据 字典 中 。 
代码 更 加 清晰 和 精确 ， 可 以 通过 添加 辅助 函数 让 它 更 加 清晰 ( 像 第 8 章 介绍 的 )。 
除 此 之 外 ， 可 以 自动 化 脚本 来 检查 是 否 有 新 的 动作 调用 。 如 果 保 存 数据 到 SQLite， 并 且 将 
其 用 于 每 月 检查 刚果 的 劳工 实践 ， 可 以 自动 化 报告 。 在 每 一 个 新 报告 中 ， 可 以 抽取 这 些 数 
据 ， 并 且 对 对 抗 冲突 矿产 和 童工 激 起 更 多 的 兴 

Beautiful Soup 是 一 个 易于 使 用 的 工具 ， 并 且 其 文档 (https:/www.crummy.com/software/ 
BeautifulSoup/bs4/doc/) 中 介绍 了 很 多 其 他 可 用 方法 的 实例 。 这 个 库 对 于 初学 者 来 说 很 棒 ， 
并 且 有 很 多 简单 的 函数 ， 然 而 ， 跟 一 些 其 他 的 Python 库 相 比 ， 它 太 简 单 了 。 

由 于 Beautiful Soup 的 解析 是 基于 正则 表达 式 的 ， 用 在 缺乏 正确 标签 结构 的 破损 网 页 上 很 有 
效 。 但 是 如 果 想 要 遍历 更 加 复杂 的 页 面 ， 或 者 想 要 抓 取 器 运行 得 更 快 并 且 快 速 地 剖 览 页 面 ， 
有 很 多 更 加 高 级 的 Python 库 可 用 。 让 我 们 看 一 下 许多 天 才 网 页 抓 取 器 开发 者 最 爱 的 库 : Lxmlt。 


11.5 ”使 用 Lxml 读 取 网 页 


一 个 更 高 级 的 网 页 抓 取 器 (其 他 的 高 级 工具 把 它 作 为 解析 器 来 使 用 ) 是 txml (http:Vlxml. 
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de/)。 它 非常 强大 而 快速 ， 而 且 有 很 多 很 棒 的 特性 ， 包 括 生成 HTML 和 XML 以 及 清洗 编 
写 糟 糕 的 网 页 的 能 力 。 除 此 之 外 ， 它 有 很 多 用 于 遍历 DOM 和 网 页 家 族 关系 的 工具 。 





安装 Lxml 


LxmL 有 许多 不 同 的 C 依 赖 ， 这 使 得 安装 它 要 比 实 装 大 多 数 Python 库 更 复杂 一 点 
(http:Wlxml.de/installation.html) 。 对 于 Windows 用 户 ， 可 查看 开源 二 进 制 构建 版 本 的 
lxml (http:Wlxml.de/FAQ.html#where-are-the-binary-builds) 。 对 于 Mac 用 户 ， 建 议 安 装 
Homebrew (http://brew.sh/) ， 这 样 你 可 以 使 用 brew install lxml 安装 它 。 有 关 高 级 安 
装 的 更 多 细节 ， 请 查看 附录 D。 











让 我 们 快速 地 看 一 下 要 使 用 的 主要 txml 特性 ， 先 重 写 Beautiful Soup 的 代码 来 使 用 txnml: 


from LxmL import html 


html.parse('http://www.enoughproject.org/take_action') @ 
page.getroot() @ 


page 
root 


ta_divs = root.cssselect('div.views-row') © 
print ta_divs 
all_data = [] 


for ta in ta_divs: 
data_dict = {} 
title = ta.cssselect('h2')[0] @ 
data_dict['title'] = title.text content() © 
data_dict['link'] = title.find('a').get('href'’) @ 
data_dict['about'] = [p.text_content() for p in ta.cssselect('p')] @ 
all_data.append(data_dict) 


print all_data 


@ 这 里 使 用 txnl 的 解析 方法 ， 它 可 以 从 一 个 文件 名 、 一 个 打开 的 缓冲 区 或 一 个 合法 的 
URL 解析 。 它 返回 一 个 etree 对 象 。 

@ 因为 etree 对 象 的 方法 和 属性 比 HTML 元 素 对 象 少 很 多 ， 所 以 这 行 代码 访 问 根 (页面 
和 HTML 的 顶部 ) 元 素 。 根 包含 所 有 可 能 的 能 够 访问 的 主干 (孩子 ) 和 细 枝 (后代)。 
从 根 可 以 向 下 解析 每 一 个 链接 或 者 段落 ， 并 且 可 以 返回 整个 页 面 的 head 和 body 标签 。 

四 使 用 根 元 素 ， 这 行 代码 找到 所 有 的 类 名 称 为 views-row 的 div。 它 使 用 cssselect 方法 
和 一 个 CSS 选择 器 字符 串 ， 返 回 一 个 匹配 元 素 的 列表 。 

@ 为 了 抓 取 标 题 ， 使 用 cssselect 方法 找到 h2 标签 。 这 行 代码 选择 了 列表 中 的 第 一 个 元 
素 。cssselect 返回 一 个 所 有 匹配 项 的 列表 ， 但 是 我 们 只 想 要 第 一 个 匹配 的 元 素 。 

日 同 Beautiful Soup 的 get_text 方法 类 似 ，text_content 为 Lxml HTML 元 素 对 象 返回 标 
签 (和 任何 子 标签 ) 内 的 文本 。 

@ 这 里 使 用 链 式 方法 来 从 title 元 素 中 获得 销 标 签 ， 并 且 拉 取 锚 标 签 中 的 href 属性 。 这 
只 返回 这 一 属性 的 值 ， 类 似 于 Beautiful Soup 的 get 方法 。 

@ 使 用 列表 生成 式 来 从 Take Action div 中 的 每 一 个 段落 中 拉 取 文本 ， 组 成 完整 的 文本 。 
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尔 应 该 看 到 与 我 们 使 用 Beautiful Soup 时 相同 的 提取 数据 。 不 同 的 是 语法 和 页 面 加 载 的 方 
式 。Beautiful Soup 使 用 正则 表达 式 把 文档 作为 一 个 长 字符 串 解析 。txml 使 用 Python 和 C 
库 来 识别 页 面 结构 ， 并 且 用 更 加 面向 对 象 的 方式 遍历 它 。Lxmt 查看 所 有 标签 的 结构 ，( 取 
决 于 你 的 计算 机 和 安装 它 方式 的 不 同 ) 使 用 最 快 的 方法 解析 树 ， 并 且 在 一 个 etree 对 象 中 
返回 数据 。 

我 们 可 以 使 用 etree 对 象 本 身 ， 或 者 调用 getroot， 这 个 函数 会 返回 树 最 顶部 的 元 素 一 一 
通常 为 htmt。 有 了 这 个 元 素 ， 可 以 使 用 很 多 不 同 的 方法 和 属性 读 取 和 人 解析 页 面 剩余 的 部 
分 。 我 们 的 解决 方案 强调 了 一 点 : 使 用 cssselect 方法 。 这 个 方法 使 用 CSS 选择 器 字符 串 
(类 似 于 jQuery 示例 )， 并 且 使 用 这 些 字 符 串 来 识别 DOM 元 素 。 


LxmL 也 有 find 和 findall 方法 。find 和 cssselect 之 间 有 什么 主要 区 别 呢 ? 来 看 一 些 示 例 : 


print root.find('div') © 









































print root.find('head') 
print root.find('head').findall('script') @ 
print root.cssselect('div') © 


print root.cssselect('head script') @ 


@ 在 根 元 素 上 使 用 find 方法 来 找到 div， 这 返回 空 。 从 浏览 器 的 检视 来 看 ， 我 们 知道 页 
面 充 满 了 divs | 

@ 使 用 find 方法 查看 头 部 标签 ， 使 用 findall 方法 在 头 部 定位 脚本 元 素 。 

@ 使 用 cssselect 取代 find 正确 地 定位 文档 中 所 有 的 divs， 它 们 作为 一 个 大 的 列表 返回 。 

@ 使 用 cssselect， 通 过 嵌 套 CSS 选择 器 在 头 部 定位 脚本 标签 。 使 用 head script 返回 与 
从 根 对 象 链 式 调 用 find 命令 相同 的 列表 。 

所 以 ，find 和 cssselect 的 操作 方式 有 很 大 的 不 同 。find 利用 DOM 来 遍历 元 素 ， 并 基于 

祖先 和 家 族 关 系 找到 它们 ， 而 cssselect 方法 利用 CSS 选择 器 来 寻找 页 面 中 所 有 可 能 的 匹 

配 ， 或 者 元 素 的 后 继 ， 非 常 类 似 于 jQuery。 














根据 需求 的 不 同 ，find 或 cssselect 可 能 更 加 有 用 。 如 果 页 面 的 CSS 类 、ID 
和 其 他 标识 符 组 织 得 良好 ，cssselect 是 一 个 非常 棒 的 选择 。 但 是 如 果 页 面 没 
有 组 织 或 不 使 用 这 些 标识 符 ， 遍历 DOM 可 以 帮助 你 通过 家 族 关系 确定 内 容 。 


我 们 想 要 探索 其 他 有 用 的 txml 方法 。 作 为 一 名 开发 者 ， 随 着 不 断 学 习 和 成 长 ， 你 可 能 
想 要 通过 emoji 表情 表达 进程 。 出 于 这 个 原因 ， 让 我 们 编写 一 个 快速 的 emoji 图 表 解 析 
器 (http://www.emoji-cheat-sheet.com/) 来 保存 一 个 最 新 的 emoji 表情 列表 ， 你 可 以 在 
Basecamp、GitHub 和 很 多 其 他 的 技术 相关 网 站 上 使 用 它们 。 下 面 是 做 这 件 事 的 代码 : 


from lxml import html 
import requests 
































resp = requests.get('http://www.emoji-cheat-sheet.com/') 
page = htmL.document_fromstring(resp.content) © 
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body = page.find('body') 
top_header = body.find('h2') @ 


print top_header .text 
headers_and_lists = [sib for sib in top_header.itersiblings()] © 
print headers_and_lists 


proper_headers_and_lists = [s for s in top_header.itersiblings() if 
s.tag in ['uL'，'h2'，'h3']] @ 


print proper_headers_and_lists 


@ 这 段 代 码 使 用 requests 库 拉 取 HTML 文档 的 主体 ， 之 后 使 用 html 模块 的 document_ 
fromstring 方法 解析 数据 为 一 个 HTML 元 素 。 

名 通过 查看 页 面 结构 ， 可 以 看 到 这 是 一 系列 头 部 的 匹配 列表 。 这 行 代码 定位 第 一 个 头 部 ， 
这 样 我 们 可 以 使 用 家 族 关 系 来 寻找 其 他 有 用 的 部 分 。 

四 这 行 代码 使 用 列表 生成 式 和 itersiblings 方法 (返回 一 个 迭代 器 ) 来 查看 所 有 的 邻居 。 

@ 上 一 个 print 展示 了 初始 的 itersibling 列表 生成 式 返回 了 远 超 我 们 需求 的 数据 ， 包 括 
一 些 页 面 下 方 带 有 div 和 script 元 素 的 部 分 。 使 用 页 面 检视 ， 我 们 确定 想 要 的 标签 只 
是 UL、h2 和 h3。 这 行 代码 使 用 列表 生成 式 和 一 个 if 确保 只 返回 目标 内 容 。 

itersiblings 方法 和 tag 属性 帮助 我 们 轻松 地 定位 想 要 选择 和 解析 的 内 容 。 在 这 个 例子 中 ， 

我 们 没有 使 用 任何 CSS 选择 器 。 我 们 知道 ， 代 码 不 会 因为 添加 一 个 新 部 分 而 损坏 ， 只 要 页 

下 继续 在 头 部 和 列表 标签 中 保存 内 容 。 


为 什么 只 想 使 用 HTML 元 素 构建 一 个 解析 器 呢 ? 不 依赖 于 CSS 类 的 优势 是 
什么 ?如 果 一 个 站 点 的 开发 者 改变 了 它 的 设计 或 让 它 变 得 对 移动 端 更 友好 ， 
那么 很 可 能 他 会 修改 CSS 和 JavaScript， 而 不 是 重新 编写 页 面 结构 。 如 果 使 
用 基本 的 页 面 结 构 驱 动 抓 取 器 ， 它 们 可 能 会 比 那些 使 用 CSS 的 抓 取 器 用 得 更 
久 ， 有 效 期 更 长 。 













































































除了 itersiblings 之 外 ，Lxmt 对 象 可 以 友 代 孩子 、 后 继 和 祖先 。 使 用 这 些 方法 志 历 DOM ， 
是 熟悉 页 面 组 织 方 式 和 编写 持久 代码 的 很 好 的 方式 。 你 同样 可 以 使 用 家 族 关 系 来 编写 有 意 
义 的 XPath 一 一 一 种 结构 化 的 模式 ， 用 于 基于 XML 的 文档 〈 像 HTML)。 尽 管 XPath 不 是 
解析 网 页 最 简单 的 方式 ， 但 它 是 一 种 快速 、 高 效 且 极度 简单 的 方式 。 


一 个 XPath 案例 


虽然 使 用 CSS 选择 器 是 一 种 找到 页 面 上 元 素 和 内 容 的 简单 方式 ， 也 建议 你 学 习 和 使 用 
XPath (https://en.wikipedia.org/wiki/XPath)。XPath 是 一 个 标记 模式 选择 器 ， 组 合 了 CSS 
选择 器 和 遍历 DOM 的 能 力 。 理 解 XPath 是 学 习 网 页 抓 取 和 网 站 结构 的 很 好 的 方式 。 有 了 
XPath， 你 可 以 访问 仅仅 使 用 CSS 选择 器 不 容易 阅读 的 内 容 。 
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XPath 可 以 用 于 几乎 所 有 主要 的 网 页 抓 取 库 ， 并 且 比 其 他 大 多 数 识 别 和 同 页 
面 内 容 交 互 的 方法 都 快 得 多 。 事 实 上 ， 大 多 数 同 页 面 交 互 的 选择 器 方法 都 在 
库 内 部 转化 为 XPath。 














为 了 练习 XPath， 你 只 需要 查看 浏览 器 的 工具 。 许 多 浏览 器 都 能 够 查看 和 复制 DOM 中 
的 XPath 元 素 。 微 软 也 有 一 篇 关于 XPath 的 很 棒 的 文章 (https://msdn.microsoft.com/en-us/ 
library/ms256086(v=vs.110).aspx)， 而 且 Mozilla 开发 者 网 络 上 有 很 多 很 棒 的 工具 和 示例 
(https://developer.mozilla.org/en-US/docs/Web/XPath)， 供 你 更 深入 地 学 习 XPath 。 

XPath 遵循 特定 的 语法 来 定义 元 素 的 类 型 、 在 DOM 中 的 位 置 ， 以 及 可 能 拥有 什么 属性 。 
表 11-2 回顾 了 可 以 在 网 页 抓 取代 码 中 使 用 的 一 些 XPath 语法 模式 。 


表 11-2: XPath 语法 
























































表达 式 描述 示例 
/node_name 在 文档 中 选择 所 有 匹 //div (选择 文档 中 的 所 有 div 对 象 ) 
配 node_name 的 节点 
/node_name 选择 当前 或 前 序 元 //div/ul (选择 所 有 div 内 的 ul 对象) 
素 中 所 有 匹配 node_ 
name 的 节点 
Qattr 选择 一 个 元 素 的 属性 //div/ul/@class (选择 所 有 div 中 ul 对 象 的 class 属 
性 ) 
yh 选择 父 元 素 //uL/../ (选择 所 有 ul 元 素 的 父 元 素 ) 
[@attr="attr_value"] 选择 有 特定 属性 值 的 //div[@id="mylists"] (选择 ID 值 为 “mylists 的 div) 
元 素 
text() 从 节点 或 元 素 中 选择 //div[@id="mylists"]/uU/Lli/text() (选择 ID 为 “mylists” 
文本 的 div 中 的 列表 中 元 素 的 文本 ) 
contains(@attr,， "value") ”选择 属性 具有 特定 值 //div[contains(@id,， "list")] (选择 所 有 ID 中 有 
的 元 素 “list” 的 div) 
过 通配符 //div/uULi/* (选择 所 有 的 div 中 ul 中 列表 对 象 的 后 
继 ) 
[1,2,3...] 、[Last()] 或 根据 在 节点 中 出 现 的 //div/uULi[3] (选择 所 有 div 中 中 的 第 三 个 列表 
[first()] 顺序 选择 元 素 对 象 ) 


还 有 更 多 的 表达 式 ， 但 是 这 些 已 经 足够 我 们 开始 了 。 让 我 们 使 用 XPath 和 本 章 早 些 时 候 创 
建 的 非常 漂亮 的 HTML 页 面 ， 研 究 如 何 解 析 HTML 元 素 间 的 家 族 关 系 。 为 了 跟随 我 们 ， 
从 本 书 的 代码 仓库 (https://github.com/jackiekazil/data-wrangling) 中 将 其 拉 取 到 你 的 浏览 器 
中 (文件 : awesome_page.html) 。 


假设 我 们 想 要 在 页 脚 部 分 选择 链接 。 通 过 使 用 “检视 元 素 ” 选 项 ( 见 图 11-13)， 可 以 看 
到 底部 栏 展 示 了 一 个 元 素 列 表 和 它们 的 祖先 。 氏 链接 位 于 html 标签 内 的 body 标签 内 的 
footer 内 的 一 个 带 有 CSS id 的 div 内 的 ul 内 的 tt 标签 里 ( 喔 ! 我 觉得 快要 喘 不 过 来 气 了 ! )。 
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Y<div id="bottom_nav“> 
<UL> 
<li> 





<a href="/about">About</a> 
</li> 


v<li> 人 
<a href="/blog">Blog</a> 
</Li> 
v<li> 


<a href="/careers">Careers</a> 
</li> 


</ul> 
</div> 
<script src="ijs/myis.is"></script> 
</footer> 
</body> 
</html> 





html body footer div#bottom_nav ul 四 


图 11-13: 找到 页 面 的 元 素 





怎样 编写 XPath 来 选择 它 呢 ? 实际 上 ， 有 很 多 种 方式 。 让 我 们 从 一 个 相当 明显 的 方式 开 

始 ， 使 用 带 有 CSS id 的 div 来 编写 XPath。 用 已 学 到 的 语法 选择 div: 
'//div[Qid="bottom_nav"]' 

可 以 使 用 浏览 器 的 JavaScript 控制 台 测 试 这 段 代 码 。 为 了 在 控制 台中 测试 XPath， 直接 将 

它 放 在 Sx(); 中 ， 这 是 一 个 jQuery 控制 台 的 实现 ， 用 于 使 用 XPath 浏览 页 面 。 让 我 们 在 控 

制 台中 查看 一 下 ( 见 





图 11-14)。! 








Q 日 Elements Network Sources Timeline Profitles Resources Audits leonsole| 
i 字 <topframe> Y 加 Preservelog 
[Fit 


| ] Regex 全 Errors Warnings Info Logs Debug 口 Hide network messages 
四 Failed to load resource: net::ERR FILE NOT_FOUND 
@ Failed to load resource: net::ERR FILE NOT FOUND 
> $x{'//div[@id="bottom nav"}"); 

[p<div id="bottom nav">.</div>] 
> Sx{ 


‘fidiv[@id="bottom nav"]/ul/li/a'); 


> | 





[ <a href="/about">About</a>, “<a Ne. <a href="/careers">Careers</a>] 


图 11-14: 使 用 控制 台 编写 XPath 








我 们 有 了 合法 的 XPath 来 选择 导航 栏 ， 





因为 控制 台 返 回 了 一 个 对 象 (类似 于 jQuery 选择 
器 ) 。 但 是 我 们 真正 想 要 的 是 链接 。 让 我 们 来 看 一 下 怎样 从 这 个 div 移 到 这 些 链接 。 我 们 
知道 它们 是 后 继 ， 所 以 编写 一 个 家 族 关 系 。 














注 1: 如 果 你 想 要 在 一 个 不 使 用 jQuery 的 站 点 上 使 用 XPath， 需 要 使 月 








日 Mozilla 在 文档 中 描述 的 不 同 语法 
(https://developer.mozilla.org/en-US/docs/Introduction_to_using_ XPath_in_JavaScript)。 对 了 
语法 应 该 是 document.evaluate('//div[@id="bottom_nav"]'，document)。 





于 这 个 元 素 ， 








'//div[@id="bottom nav"]/ul/li/a' 


这 里 我 们 想 要 任何 具 2 bottom_nav 的 divs， 其 中 包含 一 个 无 序列 表 ， 然 后 是 匹配 项 中 
的 列表 对 象 ， 再 然后 是 这 些 对 象 中 的 销 标 签 。 让 我 们 尝试 在 控制 台中 运行 它 (图 11-15 ) 。 











Q Elements Network Sources Timeline Profiles Resources Audits /Gonsole| 
i 定 <topframe> Y 国 Preservelog 


[ t 国 Regex @m Errors Warnings Info Logs Debug 口 
四 Failed to load resource: net::ERR FILE NOT FOUND 
@ Failed to load resource: net::ERR FILE NOT FOUND 
> $x('//div[@id="bottom nav"]"); 

[P<div id="bottom_nav">-</div>] 
> $x( '//div[@id="bottom nav"]/ul/li/a'); 

[ <a href="/about">About</a>, 
> | 








Hide network messages 


<a es <a href="/careers">Careers</a>] 











图 11-15: XPath 子 元 素 





可 以 从 控制 台 的 输出 看 到 已 经 选择 了 这 三 个 链接 。 现 在 ， 我们 只 


想 提取 网 页 地 址 本 身 。 我 
们 知道 


道 每 一 个 锚 标 签 有 一 个 href 属性 。 让 我 们 使 用 XPath 来 为 这 些 属 性 编写 一 个 选择 器 : 
'//div[@id="bottom nav"]/ul/li/a/@href' 

当 在 控制 台中 运行 这 个 选择 器 
( 见 图 11-16)。 











时 ， 可 以 看 到 我 们 已 经 正确 地 选择 了 底部 链接 中 的 网 页 地 址 








Q [DD Elements Network Sources Timeline Profiles Resources Audits liGonsolal 
i 可 <topframe> v 国 Preservelog 


[Fitte | 国 Regex 《CB Errors Warnings Info Logs Debug 
@ Failed to load resource: net::ERR FILE NOT FOUND 
@ Failed to load resource: net::ERR FILE NOT FOUND 
> $x('//div[@id="bottom nav"]'); 
[ Pp <div id="bottom nav">..</div>] 
> $x{ '//div[l@id="bottom nav"]/ul/li/a'); 
[ <a href="/about">About</a>, <a href="/blog">Blog</a>, 
> $x{ '//div[@id="bottom nav"]/ul/li/a/@href'); 
[vhref="/about", YWhref="/blog" 
"fabout" "/blog™ 
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<a href="/careers">Careers</a>] 


: Phref="/careers"] 











图 11-16: 寻找 XPath 属性 


了 解 页 面 结构 可 以 帮助 我 们 得 到 很 难 访 问 的 内 容 ， 我 们 可 以 使 用 XPath 表达 式 取而代之 。 


由 于 XPath 的 能 力 和 速度 ， 你 需要 慢 慢 学 习 。 比 如 ， 如 果 在 类 与 ID 之 间 
存在 空间 ， 应 该 使 用 contains 模式 ， 而 不 是 =。 元 素 可 以 拥有 多 个 类 ， 而 


XPath 会 假定 包含 了 整个 类 字符 串 ， 使 用 contains 将 帮助 你 找到 任何 包含 这 
个 子 串 的 元 素 。 


找到 你 感 兴趣 的 元 素 的 父 元 素 可 能 会 很 有 用。 假如 你 对 页 面 上 的 一 个 对 象 列 表 感 兴趣 ， 并 
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且 你 可 以 使 用 CSS 类 或 列表 中 包含 的 文本 轻松 地 定位 一 个 或 多 个 列表 对 象 。 你 可 以 使 用 
这 些 信息 来 构建 一 个 XPath 选择 器 ， 定 位 该 元 素 ， 之 后 寻找 父 元 素 ， 让 你 能 够 访问 整个 列 
表 。12.2.1 市 探索 这 些 XPath 选择 器 类 型 ， 因 为 Scrapy 利用 XPath 进行 快速 解析 。 


使 用 XPath 的 一 个 原因 是 ， 你 通过 CSS 选择 器 找到 的 CSS 类 可 能 并 不 总 能 正确 地 选择 元 
素 ， 特 别 是 使 用 了 不 同 的 驱动 处 理 页 面 时 (例如 ，Selenium 和 许多 浏览 器 )。XPath 天 生 更 




















加 ， 因 而 是 正确 解析 网 页 的 一 种 更 加 可 靠 的 方式 。 


如 果 你 已 经 抓 取 了 一 个 站 点 很 长 时 间 ， 并 且 想 要 复 用 相同 的 代码 ，XPath 不 太 可 能 会 由 于 
小 段 代码 的 改变 和 站 点 的 开发 而 月 涡 。 更 常见 的 作法 是 重 写 一 些 CSS 类 或 样式 ， 而 不 是 修 




















改 整 个 站 点 和 页 面 结构 。 





大 








此 ，XPath 比 使 用 CSS 更 安全 (尽管 不 是 万 无 一 失 )。 














现在 你 已 经 学 习 了 一 些 XPath 知识 ， 可 以 尝试 使 用 XPath 语法 重新 编写 emoji 处 理 器 ， 正 
确 地 存储 每 个 部 分 中 所 有 的 emoji 和 头 部 信息 。 代 码 类 似 下 面 这 样 。 


from LxmL import html 








page = html.parse('http://www.emoji-cheat-sheet.com/') 


proper_headers = page.xpath('//h2|//h3') O 
proper_lists = page.xpath('//ul') @ 


all_emoji = [] 


for header, list cont ;in zip(proper_headers, proper_lists): © 
section = header.text 
for li in list cont.getchildren(): @ 
emoji_dict = {} 
spans = li.xpath('div/span') © 


if Len(spans ) : 


Link = spans[0].get('data-src') @ 


if Link : 


emoji_dict['emoji link'] = li.base_url + Link @ 


else: 


emoji_dict['emoji link'] = None 
emoji_dict['emoji_handle'] = spans[1].text_content() @ 


else: 


emoji_dict['emoji_ link'] = None 

emoji_dict['emoji_handle'] = li.xpath('div')[0].text_content() © 
emoji_dict['section'] = section 
all_emoji.append(emoji_dict) 


print all_emoji 


@ 这 行 代码 寻找 与 emoji 内 容 相 关 的 头 部 信息 。 它 使 用 XPath 抓 取 所 有 的 hz 和 h3 元 素 。 

名 每 一 个 定位 到 的 头 部 有 一 个 ul 元 素来 匹配 。 这 行 代码 在 整个 文档 中 收集 所 有 的 ut 元 素 。 

@ 使 用 zip 方法 来 打包 头 部 和 与 之 适合 的 列表 ， 这 返回 一 个 元 组 列表 。 这 行 代码 之 后 解 包 
这 些 元 组 ， 使 用 一 个 for 循环 拉 取 每 一 个 部 分 〈 头 部 与 列表 内 容 ) 到 独立 的 变量 中 。 











@ 这 段 代码 遍历 ul 元 素 的 子 元 素 (Li 元 素 保存 着 emoji 表情 信息 )。 
@ 通过 页 面 检视 ， 我 们 知道 大 多 数 的 Lt 元素 有 一 个 dtv， 甚 中 包含 两 个 span 元 素 。 这 
些 span 包括 emoji 表 情 

















的 图 片 链接 ， 以 及 用 来 唤起 emoji 表情 的 文字 。 这 行 代码 使 用 
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XPath 的 div/span 返回 每 个 子 div 元 素 下 所 有 的 span 元 素 。 

@ 为 了 找到 每 个 元 素 的 链接 ， 这 行 代码 调用 第 一 个 span 的 data-src 属性 。 如 果 Link 变量 
为 None， 代 码 会 在 我 们 的 数据 字典 中 设置 emoji_Link 属性 为 None。 

@ 因为 data-src 保存 着 一 个 相对 URL， 所 以 这 行 代码 使 用 base_url 属性 来 创建 一 个 完整 
的 绝对 URL。 

@ 为 了 得 到 句柄 (handle) 或 唤起 emoji 表情 所 需 的 文字 ， 这 行 代 码 抓 取 第 二 个 span 的 文本 。 
不 同 于 链接 的 逻辑 ， 我 们 不 需要 测试 这 是 否 存 在 ， 因 为 每 一 个 emoji 都 拥有 一 个 句柄 。 

@@ 对 于 包括 Basecamp 声效 的 页 面 ， 对 于 每 一 个 列表 对 象 ， 存 在 一 个 div (你 可 以 通过 使 
用 浏览 器 的 开发 者 工具 检视 页 面 ， 轻 松 地 找到 它 )。 这 行 代码 选 择 dtv， 并 且 抓 取 其 中 
的 文本 内 容 。 因 为 这 行 代码 在 else 代码 块 中 ， 所 以 我 们 知道 这 些 只 是 声音 文件 ， 因 为 
它们 不 使 用 spans。 

通过 重 写 emoji 代码 来 使 用 XPath 关系 ， 我 们 发 现 标签 最 后 的 代码 块 是 声音 ， 并 且 其 中 的 数 

据 以 不 同 的 方式 存储 。 相 对 于 在 span 中 保存 一 个 链接 ， 这 里 只 有 一 个 div 包含 唤醒 声音 的 

文本 。 如 果 只 想 要 emoji 链接 ， 可 以 跳 过 添加 它们 到 列表 对 象 的 迭代 。 取 决 于 你 感 兴趣 的 数 

据 ， 代 码 会 有 很 大 相同 ， 但 是 你 总 是 可 以 轻松 地 利用 if.. .else 逻辑 来 确定 需要 的 内 容 。 

通过 不 超过 30 行 的 代码 ， 我 们 创建 了 一 个 抓 取 器 来 请 求 页 面 ， 通 过 XPath 遍历 DOM 关 

系 解析 它 ， 同 时 使 用 合适 的 属性 或 文本 内 容 抓 取 出 需要 的 内 容 。 这 段 代 码 具 有 很 好 的 扩展 

性 ， 如 果 页 面 的 作者 添加 了 更 多 的 数据 节 ， 只 要 页 面 结构 没有 大 幅度 改变 ， 解 析 器 会 继续 

从 页 面 拉 取 内 容 ， 并 且 我 们 会 拿 到 不 计 其 数 的 emoji 表情 ! 

还 有 许多 其 他 有 用 的 txml 函数 。 表 11-3 总 结 了 其 中 一 些 以 及 它们 的 使 用 场景 。 

表 11-3: LxmL 特 性 

方法 或 属性 名 称 描述 文档 




























































































clean_html 一 个 用 来 清理 糟糕 格式 页 面 的 函 http://lxml.de/lxmlhtml.html#cleaning-up-html 
数 ， 这 样 它们 可 以 被 正确 解析 

iterlinks 个 用 来 访问 页 面 上 每 一 个 锚 标 http:Wlxml.de/lxmlhtml.html#working-with-links 

[x.tag for x in root] 所 有 的 etree 元素 可 以 作为 简单 的 http://lxml.de/api.html#iteration 








友 代 器 使 用 ， 支 持 子 元 素 的 遍历 
‘nsmap 提供 对 命名 空间 的 简单 访问 ， 如 http://lxml.de/tutorial.html#namespaces 
果 你 愿意 使 用 它们 的 话 














现在 ， 当 研究 页 面 上 的 结构 化 数据 和 解决 如 何 使 用 LxmL、Beautiful Soup 和 XPath 从 页 衣 
中 提取 内 容 时 ， 你 应 该 感到 很 自信 。 下 一 章 会 继续 研究 其 他 可 以 用 来 做 不 同类 型 抓 取 的 
库 ， 像 基于 浏览 器 的 解析 和 爬虫 。 


11.6 小结 


你 已 经 学 习 了 许多 关于 网 页 抓 取 的 知识 。 在 编写 不 同 格式 的 抓 取 器 时 ， 你 应 该 感到 很 自 
信 。 你 已 清楚 怎样 编写 jQuery、CSS 和 XPath 选择 器 ， 以 及 如 何 轻松 地 使 用 浏览 器 和 
Python 匹配 内 容 。 
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在 使 用 开发 者 工具 分 析 一 个 网 页 是 如 何 构建 的 时 候 ， 你 同样 会 感到 很 自在 。 你 已 经 磨 练 了 
CSS 和 JavaScript 技能 ， 学 习 了 如 何 编写 一 个 合法 的 XPath 来 与 DOM 树 直接 交互 。 


表 11-4 列 出 了 本 章 介绍 的 新 概念 和 库 。 
表 11-4: 新 的 Python 和 编程 概念 与 库 
概念 / 库 目的 


robots.txt 文件 使 用 、 版 权 和 商标 研究 ” 通过 站 点 的 robots.txt 文件 、 服 务 条 款 或 页 面 上 发 布 的 其 他 法 律 
声明 ， 你 可 以 确定 是 否 可 以 合法 和 符合 道德 地 抓 取 站 点 内 容 












































开发 者 工具 使 用 : 检视 /DOM 用 于 研究 内 容 在 页 面 上 的 位 置 ， 以 及 如 何以 最 佳 方式 使 用 页 面 层 
次 和 CSS 规则 来 找到 它 
开发 者 工具 使 用 : 网 络 用 于 研究 为 了 完全 加 载 页 面 发 起 了 哪些 调用 。 这 其 中 的 一 些 请 求 




















可 能 指向 API， 或 其 他 资源 ， 以 便 你 轻松 获取 数据 。 了 解 页 面 如 
何 加 载 可 以 帮助 你 确定 是 使 用 一 个 简单 的 抓 取 器 还 是 一 个 基于 浏 
览 器 的 更 复杂 的 抓 取 器 








































































































开发 者 工具 使 用 : JavaScript 控制 台 用 于 研究 如 何 通过 其 CSS 或 XPath 选择 器 同 页 面 上 的 元 素 交互 

urLLib 和 urLLib2 标准 库 帮助 你 创建 简单 的 HTTP 请 求 来 访问 一 个 网 页 ， 并 通过 Python 
标准 库 获 取 内 容 

requests 库 帮助 你 更 容易 地 创建 复杂 的 页 面 请 求 ， 特 别 是 那些 需要 额外 的 头 
部 、 复 杂 的 P05T 数据 或 请 求 认证 

Beautifulsoup 库 让 你 轻松 读 取 和 解析 页 面 。 对 于 严重 破损 的 页 面 和 初始 的 网 页 抓 
取 很 有 用 

lxml 库 让 你 更 轻松 地 使 用 类 似 XPath 语法 的 DOM 层次 结构 和 工具 解析 
页 面 

XPath 使 用 使 你 能 够 使 用 正则 表达 式 和 XPath 语法 编写 模式 和 匹配 ， 快 速 地 
找到 和 解析 页 面 内 容 


在 下 一 章 ， 你 会 学 习 更 多 从 网 页 抓 取 数据 的 方式 。 
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高 级 网 页 抓 取 ;屏幕 抓 取 器 与 候 虫 





在 第 11 章 你 已 经 开始 培养 网 页 抓 取 技 能 ， 学 习 了 如 何 确定 要 抓 取 的 内 容 ， 以 及 用 什么 方 
式 去 哪里 抓 取 。 在 这 一 章 ， 我 们 会 学 习 用 更 高 级 的 抓 取 器 来 收集 内 容 ， 比 如 基于 浏览 器 的 
抓 取 器 和 把 虫 。 


我 们 还 会 学 习 使 用 高 级 网 页 抓 取 工具 调试 常见 问题 ， 并 介绍 在 抓 取 网 页 时 会 遇 到 的 一 些 道 
德 问题 。 首 先 ， 我 们 会 研究 基于 浏览 器 的 网 页 抓 取 : 通过 Python 直接 使 用 浏览 器 从 网 页 上 
抓 取 内 容 。 


12.1 基于 浏览 器 的 解析 


有 时 ， 站 点 使 用 大 量 的 JavaScript 或 其 他 页 面 加 载 后 执行 的 代码 来 给 页 面 填充 内 容 。 在 这 
些 情况 中 ， 使 用 一 个 普通 的 网 页 抓 取 器 来 分 析 站 点 几乎 是 不 可 能 的 。 你 最 后 得 到 的 是 一 个 
空白 的 页 面 。 如 果 你 想 要 同 页 面 进行 交互 〈 即 ， 如 果 你 需要 点 击 按钮 或 者 输入 一 些 搜索 文 
本 )， 也 会 磁 到 相同 的 问题 。 无 论 哪 一 种 情况 ， 你 需要 找 出 屏幕 阅读 (screen read) 页 面 的 
方法 。 屏 幕 读 取 器 使 用 浏览 器 打开 页 面 ， 在 浏览 器 中 加 载 页 面 之 后 读 取 并 同 它 交互 。 
























































屏幕 读 取 器 很 擅长 执行 通过 一 系列 操作 来 获取 信息 才能 完成 的 任务 。 出 于 这 
个 原因 ， 屏 幕 读 取 器 脚本 也 是 自动 化 常规 网 页 任务 的 简单 方式 。 






































在 Python 中 最 常用 的 屏幕 读 取 库 是 Selenium (http://selenium.googlecode.com/svn/trunk/ 
docs/api/py/index.html) 。Selenium 是 一 个 Java 程序 ， 用 来 打开 浏览 器 ， 并 且 通 过 读 取 页 
面 同 页 面 交 互 。 如 果 你 已 经 了 解 Java， 可 以 使 用 Java IDE 来 与 浏览 器 交互 。 我 们 会 通过 
Python 使 用 Python 包 (Python binding) 与 Selenium 交互 。 
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12.1.1 使 用 Selenium 进 行 屏幕 读 取 

Selenium 是 一 个 强大 的 基于 Java 的 引擎 ， 可 通过 支持 Selenium 的 浏览 器 直接 与 网 站 交互 。 
它 是 一 个 非常 流行 的 用 于 用 户 测试 的 框架 ， 让 公司 可 以 为 它们 的 网 站 构建 测试 。 对 于 我 们 
的 目标 ， 我 们 会 使 用 Selenium 来 抓 取 一 个 我 们 需要 交互 或 不 是 所 有 内 容 都 在 第 一 次 请 求 中 
加 载 (例如 图 11-6 中 的 示例 ， 大 多 数 的 内 容 在 第 一 次 请 求 完成 后 加 载 ) 的 站 点 。 让 我 们 查 
看 页 面 ， 看 看 是 否 可 以 通过 Selenium 读 取 它 。 

首先 ， 需 要 使 用 ptp install 安装 Selenium (http://selenium-python.readthedocs.io/en/latest/ 
installation.html) : 








pip install selenium 


现在 ， 开 始 编写 Selenium 人 代码。 首先， 需要 打开 浏览 器 。Selenium 支持 许多 不 同 的 浏览 
器 ， 但 是 附带 了 一 个 Firefox 的 内 置 驱动 。 如 果 你 没有 安装 Firefox， 可 以 安装 它 ， 或 者 
为 Chrome (https://code.google.com/p/selenium/wiki/ChromeDriver)、 IE (https://code.google. 
com/p/selenium/wiki/InternetExplorerDriver) 或 Safari (https://code.google.com/p/selenium/wiki/Safari 
Driver) 安装 Selenium 驱动 。 让 我 们 看 一 下 是 否 能 够 使 用 Selenium 打开 网 页 (在 例子 中 ， 
我 们 会 使 用 Firefox， 但 是 切换 和 使 用 不 同 的 驱动 器 是 很 简单 的 ) : 


from selenium import webdriver ©@ 








browser = webdriver.Firefox() @ 
browser .get('http://www.fairphone.com/we-are-fairphone/') © 


browser .maximize window() @ 


@ 导入 来 自 Selenium 的 webdriver 模块 。 这 个 模块 用 来 调用 任何 已 经 安装 的 驱动 器 。 

@ 通过 使 用 webdriver 模块 的 Firefox 类 初始 化 Firefox 浏览 器 对 象 。 这 会 在 计算 机 上 打开 
一 个 新 的 浏览 器 窗口 。 

四 通过 get 方法 和 一 个 URL 参数 ， 访 问 想 要 抓 取 的 URL。 打 开 的 浏览 器 应 该 开始 加 载 页 
面 了 。 

@ 使 用 maximize_browser 方法 最 大 化 打开 的 浏览 器 。 这 会 帮助 Selenium“ 看 到 ”更 多 的 


现在 已 经 有 了 一 个 页 面 加 载 完 的 浏览 器 对 象 (browser 变量 )。 让 我 们 看 一 下 是 否 能 够 同 
页 面 上 的 元 素 交 互 。 如 果 你 使 用 浏览 器 的 检视 标签 ， 会 看 到 社交 媒介 内 容 在 一 个 类 名 称 为 
content 的 div 中 。 让 我 们 看 一 下 是 否 可 以 使 用 新 的 browser 对 象 看 到 全 部 内 容 : 


content = browser.find_element_by_css_selector('div.content') ©@ 























print content.text @ 
all_bubbles = browser.find_ elements_by_css_selector('div.content') © 
print len(all_bubbles) 


for bubble in all_bubbles: @ 
print bubble.text 
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@ browser 对 象 有 一 个 国 数 find_eLement_by_css_seLector， 使 用 CSS 选择 器 来 选择 
HTML 对 象 。 这 行 代码 选择 了 第 一 个 类 名 称 为 content 的 div， 这 会 返回 第 一 个 匹配 的 
对 象 (一 个 HTMLELement 对 象 ) 。 

@ 这 行 代码 会 打印 第 一 个 匹配 对 象 的 文本 内 容 。 我 们 期 待 看 到 第 一 个 聊天 气泡 。 

四 这 行 代码 使 用 find_elements_by_css_selector 方法 ,传递 一 个 CSS 选择 器 ， 找 到 所 有 
匹配 的 对 象 。 这 个 方法 返回 一 个 HTMLELement 对 象 列表 。 

@ 遍历 列表 ， 并 且 打 印 每 一 个 对 象 的 内 容 。 

咽 ， 有 些 奇 怪 。 看 起 来 只 有 两 个 匹配 我 们 想 要 查找 的 对 象 ( 因 为 在 打印 atl_bubbles 的 长 


度 时 ， 看 到 输出 为 2)， 但 是 我 们 在 页 面 上 看 到 了 大 量 的 内 容 气 泡 。 让 我 们 更 深入 地 查看 页 
面 上 的 HTML 对 象 ， 看 是 否 可 以 和 弄 明白 为 什么 没有 匹配 出 更 多 的 对 象 ( 见 图 12-1)。 














<nicau>~-</ncau> 
<body class="page page-id-7297 page-template-default " data-pinterest-extension-installed="crl.37"> 
> <header role="navigation">..</header> 
v<div id="weAreFairphone"> 
<div class="container content">.-</div> 
xt/javascript" id="twine-script" src=" 








v#document 


v<html lang="en” xmlns="http://www.w3.0rg/1999/xhtml™ class=" js cssanimations"> 
Ws 
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图 12-1: iframe 


啊 ! 当 查 看 内 容 的 父 元 素 时 ， 我 们 看 到 这 是 一 个 iframe (https://developer.mozilla.org/ 
en-US/docs/Web/HTMIL/Element/iframe)， 位 于 页 面 的 中 部 。iframe (内 联 框架 ) 是 一 个 
HTML 标签 ， 它 将 另外 一 个 DOM 结构 能 入 到 页 面 中 ， 人 允许 一 个 页 面 在 它 自身 中 加 载 另 外 
一 个 页 面 。 我 们 的 代码 可 能 不 能 解析 它 ， 因 为 解析 器 希望 只 遍历 一 个 DOM 对 象 。 让 我 们 
看 一 下 是 否 可 以 让 iframe 在 一 个 新 的 窗口 中 加 载 ， 这 样 就 不 需要 遍历 两 个 DOM。 


iframe = browser.find_element_by_xpath('//ifrane') ©@ 











new_url = iframe.get attribute('src') @ 
browser .get(new_url) © 


@ 使 用 find_element_by_xpath 方法 ， 返 回 第 一 个 匹配 iframe 标签 的 元 素 。 
外 得 到 src 属性， 这 包含 在 iframe 中 加 载 的 页 面 的 URL。 
四 在 训 览 器 中 加 载 iframe 的 URL。 


我 们 找到 了 如 何 加 载 想 要 的 内 容 的 方法 。 现 在 看 一 下 是 否 可 以 加 载 所 有 的 内 容 气 泡 : 


all_bubbles = browser.find elements_by_css_selector('div.content') 








for elem in all_bubbles: 
print elem.text 
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现在 | 一 些 信 息 : 想 要 提取 人 的 姓名 、 他 们 分 享 的 内 
容 、 照 片 (如 果 有 的 话 )， 以 及 到 原始 内 容 的 链接 。 

在 浏览 页 面 HTML 代码 的 过 程 中 ， 看 起 来 每 一 个 内 容 元 素 都 有 fullname 和 name 元 素来 标 
识 个 人 ， 还 有 一 个 有 文本 内 容 的 twine-description 元 素 。 我 们 看 到 这 里 有 一 个 picture 元 
素 ， 还 有 一 个 when 元 素 ， 其 中 保存 着 时 间 数 据 。when 元 素 还 包含 一 个 原始 链接 。 具 体 讲 
解 如 下 。 


from selenium.common.exceptions import NoSuchELementException © 


















































all_data = [] 


for elem in all_bubbles: @ 
elem dict = {} 


elem dict['full_ name'] = \ 
elem.find_ element_by_css_selector('div.fullnanme').text 各 
elem dict['short name'] = 和 
elem.find element_ by_css_selector('div.name').text 
elem dict['text_ content'] = \ 
elem.find element by_css_selector('div.twine-description').text 
elem dict['timestamp'] = elem.find element by_css_selector('div.when').text 
elem dict['original_link'] = \ 
elem.find element by_css_selector('div.when a').get attribute('href') @ 
try: 
elem dict['picture'] = elem.find_ element_ by_css_selector( 
'div.picture img').get attribute('src') © 
except NoSuchElementException: 
elem dict['picture'] = None @ 
all_data.append(elem dict) 


@ 这 行 代 码 导 入 来 自 Selenium 的 NoSuchElementException 异常 类 。 当 在 try...except 
代码 块 中 使 用 异常 类 时 ， 确 保 你 导入 和 使 用 了 库 异 常 ， 以 便 正 确 地 处 理 预 期 误差 。 我 
们 知道 ， 不 是 每 一 个 对 象 都 有 照片 ， 并 且 Selenium 会 在 找 不 到 我 们 想 要 的 picture 
HTML 元 素 的 时 候 抛 出 这 个 异常 ， 所 以 我 们 可 以 使 用 这 个 异常 来 对 有 和 没有 图 片 的 气 
泡 区 别处 理 。 

四 在 for 循环 中 ， 遍 历 了 内 容 气 泡 。 对 于 这 其 中 的 每 一 个 elen 对 象 ， 通 过 更 这 入 地 遍 
树 ， 可 以 找到 其 中 包含 的 元 素 。 

四 对 于 每 一 个 文本 对 象 ， 这 行 代码 调用 了 HTMLELement 的 text 属性 ， 这 会 抛弃 文本 中 的 标 
签 ， 只 返回 元 素 的 文本 内 容 。 

@ HTMLELement 的 get_attribute 方法 期 待 得 到 一 个 藤 套 的 属性 ， 并 且 返 回 属性 的 值 。 这 
行 代码 使 用 href 属性 来 得 到 URL， 使 用 嵌 套 的 CSS 在 when 类 中 的 div 元 素 中 查找 锚 
标签 。 

@ 在 try 代码 块 中 ， 这 段 代码 在 div 中 查找 照片 。 如 果 没 有 照片 ， 下 一 行 会 捕获 Selenium 
抛 出 的 NoSuchELementException 异常 ， 因 为 没有 匹配 的 元 素 。 

@ 如 果 没 有 找到 匹配 的 元 素 ， 这 行 代码 添加 一 个 None 值 。 这 确保 新 列表 中 的 所 有 对 象 有 
一 个 ptcture 值 。 


我 们 的 脚本 很 早 就 遇 到 了 问题 ， 你 应 该 会 看 到 一 个 包含 下 面 文本 信息 的 异常 : 
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Message: Unable to locate element: 


{"method":"css selector","selector":"div.when"} 


这 告诉 我 们 在 查找 when 元 素 时 碰 到 了 问题 。 让 我 们 通过 检视 标签 仔细 查看 发 生 了 什么 





图 12-2)。 


( 见 





Y<div ctLass="twine-item-border > 
> <div class="badge-ribbon logo-wrapper twitter">.</div> 
Y<div class="content"> 
p<div data-id="62345125” data-action="Profile” class="row byline">.</div> 
p<div class="twine-description “>-</div> 
</div> 


p<i class="fa pm pp 


p<a data-action="View” data-id="62345125" data-href="https://twitter.com/discot 
</div> 
Y<div class="row footer"> 
::before 
p<div class="col-xs-12">.</div> 
::after 
</div> 











12-2: 相 人 $h div 


通过 更 仔细 地 观察 ， 可 以 看 到 content div 和 when div 实际 上 是 相 邻 的 ， 而 不 是 在 DOM 
结构 中 的 父子 关系 。 这 暴露 了 一 个 问题 ， 因 为 只 遍历 了 content div， 而 不 是 父 div。 如 果 
仔细 地 观察 ， 可 以 看 到 twine-item-border 是 content 和 when 元 素 的 共同 父 元 素 。 你 需要 





通过 加 载 父 元 素 ， 修 改 为 aLL_bubbtes 使 用 的 元 素 : 


all_bubbles = browser.find_elements_by_css_selector('div.twine-item-border') 


做 出 这 个 改变 后 重新 运行 之 前 的 代码 。 发 生 了 什么 ? 你 会 看 到 更 多 的 NoSuchElementException 
错误 。 因 为 不 确定 每 一 个 元 素 有 相同 的 属性 ， 所 以 我 们 假设 它们 都 不 相同 ， 并 且 重 新 编写 代 











码 来 对 异常 做 出 解释 : 
from selenium.common.exceptions import NoSuchELementException 


aLL data = [] 
all_bubbles = browser.find_elements_by_css_selector( 
'div.twine-item-border') 


for elem in all_bubbles: 
elem dict = {'full_name': None, 
'short_name': None, 
'text_content': None, 
'picture': None, 
'timestamp': None, 
'original_link': None， 
1@ 
content = elem.find_ element_by_css_selector('div.content') 名 
try: 
elem dict['full _name'] = \ 
content.find_element_by_css_selector('div.fullname').text 
except NoSuchElementException: 
pass © 
try: 
elem dict['short_name'] = \ 
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Content .find_eLement_by_css_seLector('div.name ' ) .text 
except NoSuchElementException: 
pass 
try: 
elem dict['text_ content'] = \ 
content.find element by_css_selector('div.twine-description').text 
except NoSuchElementException: 
pass 
try: 
elem dict['timestamp'] = elem.find element_ by_css_selector( 
'div.when').text 
except NoSuchElementException: 
pass 
try: 
elem dict['original_link'] = \ 
elem.find element_ by_css_selector( 
'div.when a').get attribute('href') 
except NoSuchElementException: 
pass 
try: 
elem dict['picture'] = elem.find element by_css_selector( 
'div.picture img').get attribute('src') 
except NoSuchElementException: 
pass 
all_data.append(elem dict) 


@ 对 于 对 象 的 每 一 次 迭代 ， 这 行 代码 添加 一 个 新 的 字典 ,设置 所 有 的 键 为 None。 这 给 了 我 
们 一 个 干净 的 字典 设置 ， 这 样 每 一 个 对 象 都 有 相同 的 键 ， 我 们 可 以 在 发 现 数据 的 时 候 添 
加 它 到 键 中 。 

名 拉 取 content div， 这 样 可 以 在 这 个 div 中 选择 。 这 让 代码 更 加 明确 ， 以 防 有 其 他 的 div 
有 相似 的 名 称 。 

@ 使 用 Python 的 pass (https://docs.python.org/2/tutorial/controlflow.html#pass-statements) 来 
略 过 异常 。 因 为 所 有 的 键 都 已 经 设置 为 None， 所 以 我 们 在 这 里 不 需要 做 任何 事 。Python 
的 pass 让 代码 略 过 异常 ， 所 以 程序 会 继续 执行 下 一 个 代码 块 。 


一 旦 将 数据 收集 到 aLL_data 中 ， 你 可 以 打印 它 ， 看 一 下 收集 到 的 内 容 。 下 面 是 一 些 样 例 输 
出 (这 是 一 个 社交 媒体 时 间 线 ， 所 以 你 的 时 间 线 会 和 下 面 展 示 的 有 所 不 同 ) : 


[{'full_name': u'Stefan Brand', 
'original_link': None, 
'picture': uy'https://pbs.twimg.com/media/COZlle9WoAESpVL.jpg:large', 
'short_name': u'', 
'text_content': uy'Simply @Fairphone :) #WeAreFairphone http://t.co/vUvKzjX2Bw', 
'timestamp': Uy'POSTED ABOUT 14 HOURS AGO'}, 

{'full_name': None, 

'original_link': None, 

'picture': None, 

'short_name': u'', 

'text_content': None, 

'timestamp': None}, 

'full_name': u'Sietse/MFR/Orphax', 

'original_link': None, 

'picture': None, 

















Ba 


























En] 





'short_name': U'  ， 

"text_content': u'Me with my (temporary) Fairphone 2 test phone. 

# happytester #wearefairphone @ Fairphone instagram.com/p/7X-KXDQzXG/ ， 
'timestamp': U'POSTED ABOUT 17 HOURS AGO'},...] 


我 们 的 数据 看 起 来 有 一 些 混 乱 。for 循环 很 上 鹰 ， 很 难 阅读 和 理解 。 同 样 ， 看 起 来 我 们 可 
以 改进 一 些 数据 收集 方式 一 一 我 们 的 日 期 对 象 只 是 一 个 字符 串 ， 但 是 它 更 应 该 是 一 个 日 
期 。 我 们 还 需要 实验 Selenium 的 能 力 来 与 页 面 交 互 ， 这 可 能 会 帮助 我 们 加 载 更 多 的 内 容 。 


还 需要 调试 看 到 的 错误 。 我 们 找 不 到 正确 的 短 名 称 ， 代 码 看 起 来 返回 了 一 个 空 字 符 串 。 在 
研究 了 页 面 之 后 ， 看 起 来 name div 是 隐藏 的 。 在 Selenium 中 ， 隐 藏 的 元 素 通 常 是 不 能 阅 
读 到 的 ， 所 以 需要 使 用 该 元 素 的 innerHTML 属性 ， 这 会 返回 标签 中 的 内 容 。 我 们 也 注意 到 ， 
时 间 惟 数据 存储 在 title 属性 中 ， 并 且 URL 事实 上 存储 在 data-href 中 ， 而 不 是 href 属 
性 中 。 

















随 着 时 间 推移 ， 编 写 首 次 运行 就 可 成 功 抓 取 的 代码 会 变 得 更 简单 。 预 期 可 能 
出 现 的 问题 也 变 得 更 简单 。 通 过 研究 浏览 器 的 开发 者 工具 ， 并 使 用 IPython 
进行 调试 ， 你 可 以 操作 变量 ， 测 试 可 能 有 效 的 方法 。 












































在 找到 所 有 数据 的 基础 上 ， 要 确保 正确 地 格式 化 脚本 。 我 们 想 要 创建 函数 ， 更 好 地 抽象 数 
据 提 取 。 相 对 于 从 初始 页 面 直接 解析 URL， 应 该 简化 代码 ， 直 接 加 载 页 面 。 通 过 在 浏览 器 
中 反复 试 错 发 现 , 可 以 移 除 iframe URL 中 的 长 查询 字符 串 ( 即 , ?scroll=auto&zcols=4&format 
=embed&eh=.….)， 并 且 仍 然 使 用 来 自 社交 媒体 的 姐 入 内 容 加 载 整 个 页 面 。 让 我 们 看 一 下 整理 
和 简化 后 的 脚本 : 

from selenium.common.exceptions import NoSuchElementException, \ 


WebDriverException 
from selenium import webdriver 





























def find_text_element(html_element, element css): @ 
try: 
return html_element.find_element by_css_selector(element css).text @ 
except NoSuchElementException: 
pass 
return None 


def find_attr_element(html_element, element_css, attr): © 
try: 
return html_element.find_element by_css_selector( 
element_ css).get attribute(attr) @ 
except NoSuchElementException: 
pass 
return None 


def get_browser(): 
browser = webdriver.Firefox() 
return browser 
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def main(): 
browser = get_browser() 
browser .get('http://apps.twinesocial.com/fairphone') 


aLL data = [] 
browser .impLicitLy_wait(10) 加 
try : 


all_bubbles = browser .find_eLements_by_css_seLector( 
'div.twine-item-border') 
except WebDriverException: 
browser.implicitly wait(5) 
all_bubbles = browser.find_ elements_by_css_selector( 
'div.twine-item-border') 
for elem in all_bubbles: 
elem dict = {} 
content = elem.find element by_css_selector('div.content') 
elem dict['full_name'] = find_text_eLement( 
content, 'div.fullname') 
elem dict['short name'] = find_attr_element( 
content, 'div.name', 'innerHTML') 
elem dict['text_ content'] = find_ text_element( 
content, 'div.twine-description') 
elem dict['timestamp'] = find_attr_element( 
elem, 'div.when a abbr.timeago', 'title') @ 
elem dict['original_link'] = find_attr_eLement( 
elem, 'div.when a', 'data-href') 
elem dict['picture'] = find_attr_element( 
content, 'div.picture img', 'src') 
all_data.append(elem dict) 
browser .quit() @ 
return all_data © 
if _ name_ _ == '__main__ 
all_data = main() 
print all_data 


@ 创建 一 个 函数 ， 接 受 HTML 元 素 和 CSS 选择 器 ， 返 回 文 本 元 素 。 在 上 一 个 代码 实例 

中 ， 需 要 一 次 又 一 次 地 重复 代码 ， 现 在 我 们 想 要 创建 一 个 函数 ， 这 样 可 以 重复 使 用 它 ， 
不 需要 在 脚本 中 重新 编写 代码 。 

@ 使 用 抽象 函数 变量 ， 返 回 HTML 元 素 的 文本 。 如 果 没 有 找到 匹配 ， 返 回 None。 

和 @ 创建 一 个 函数 来 找到 和 返回 属性 ， 类 似 于 我 们 的 文本 元 素 函 数 。 这 需要 HTML 元 素 、 
CSS 选择 器 ， 以 及 我 们 想 要 从 选择 器 中 拉 取 的 属性 ， 并 且 为 这 个 选择 器 返回 值 或 者 None。 

@ 使 用 抽象 函数 变量 找到 HTML 元 素 ， 并 且 返 回 属性 。 

@ 使 用 Seleniumbrowser 类 的 implicitly_wait 方法 ， 它 接受 一 个 希望 浏览 器 在 执行 下 
一 行 代码 前 隐 式 等 待 的 秒 数 为 参数 。 如 果 不 确定 页 面 是 否 会 立即 加 载 完 成 ， 这 是 个 很 
棒 的 方法 。 关 于 隐 式 和 显 式 等 待 有 很 多 很 棒 的 Selenium 文档 (http://selenium-python. 
readthedocs.io/en/latestwaits.html ) 。 

@ 传递 CSS 选择 器 ， 来 获取 when div 中 一 个 错 标 签 的 abbr 元 素 的 title 属性 ， 以 获取 时 
间 惟 数据 。 

@ 抓 取 数据 结束 后 ， 使 用 quit 方法 关闭 浏览 器 。 
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四 返回 收集 的 数据 。_nane == '__main__' 代码 块 允许 从 命令 行 执 行 代码 时 打印 数据 ， 
或 者 我 们 可 以 导入 函数 到 IPython 中 ， 并 且 运 行 main 函数 返回 数据 。 

尝试 从 命令 行 中 运行 脚本 ,或 者 将 其 导入 到 IPython， 之 后 运行 main 函数 。 这 次 数据 
看 起 来 更 加 完整 了 吗 ? 你 还 会 发 现 添加 了 另外 一 个 try...except 代码 块 。 我 们 注意 
到 ， 有 些 时 候 Selenium 使 用 的 交互 会 与 页 面 上 的 JavaScript 冲突 ， 使 Selenium 抛 出 一 个 
WebDriverException 异常 。 允 许 页 面 加 载 更 长 的 时 间 ， 再 一 次 尝试 后 ， 可 以 解决 这 个 问题 。 
如 果 在 浏览 器 中 访问 URL， 你 可 以 看 到 ， 随 着 下 拉 页 面 能 够 加 载 更 多 的 数据 。 有 了 
Selenium， 我 们 同样 可 以 做 这 件 事 ! 让 我 们 看 一 下 Selenium 可 以 做 的 其 他 漂亮 的 事 。 可 以 
尝试 在 Google 中 搜索 Python 网 页 抓 取 库 ， 并 且 使 用 Selenium 与 搜索 结果 交互 : 


from selenium import webdriver 
from time import sleep 




































































browser = webdriver.Firefox() 
browser .get('http://googLe.com') 


inputs = browser.find_elements_by_css_selector('fornm input') © 
for i in inputs: 
if i.is displayed(): © 
search bar = i © 
break 


search_bar .send_keys('web scraping with python') @ 


search_button = browser.find element by_css_selector('form button') 
search_button.click() @ 


browser .implicitly wait(10) 
results = browser.find elements by _css_selector('div h3 a')@ 


for r in results: 
action = webdriver.ActionChains(browser) @ 
action.move_to_element(r) © 
action.perforn() © 
sleep(2) 


browser .quit() 


@ 需要 找到 一 个 输入 。Google 和 其 他 的 站 点 一 样 ， 在 页 面 的 很 多 地 方 都 有 输入 框 ， 但 是 
通常 来 说 ， 只 有 一 个 大 的 可 见 搜索 框 。 这 行 代码 定位 所 有 的 输入 表单 ， 这 样 我 们 有 了 一 
个 好 的 起 点 。 

名 这 行 代码 遍历 每 一 个 输入 ， 看 它们 是 隐藏 的 还 是 显示 的 。 如 果 is_displayed 返回 True， 
那么 有 了 一 个 可 见 的 元 素 。 反 之 ， 这 个 循环 会 继续 遍历 。 

四 找到 一 个 显示 出 来 的 输入 时 ， 将 它 赋 值 给 变量 search_bar， 终 止 循环 。 这 会 找到 第 一 个 
可 见 的 输入 ， 这 可 能 是 我 们 想 找 的 那 一 个 。 

@ 这 行 代码 通过 使 用 send_keys 方法 发 送 键 和 字符 串 到 选 定 的 元 素 (在 这 个 例子 中 ， 它 发 
送 键 到 搜索 框 )。 这 类 似 于 在 键盘 上 输入 ， 但 是 是 用 Python ! 
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@ Selenium 还 可 以 click 页 面 上 可 见 的 元 素 。 这 行 代 码 告诉 Selenium 点 击 搜索 表单 的 提 
交 按 钮 ， 来 查看 搜索 结果 。 

@ 为 了 查看 所 有 的 搜索 结果 ， 这 行 代码 选择 div 中 有 链接 的 标题 元 素 ， 这 是 谷歌 搜索 结果 
页 面 的 结构 。 

@ 这 段 代 码 遍历 每 一 个 结果 ， 利 用 Selenium 的 ActionChains 定义 一 系列 的 操作 ， 并 告诉 
浏览 器 执行 这 些 操作 。 

@ 这 行 代码 使 用 ActionChain 的 move_to_element 方法 ， 传 递 给 这 个 方法 想 要 浏览 器 访问 
的 元 素 。 

@@ 这 行 代码 调用 perform， 这 意味 着 浏览 器 会 高 亮 每 一 个 搜索 结果 。 我 们 使 用 一 个 sleep 
函数 ， 这 告诉 Python 在 执行 下 一 行 代码 前 等 待 特定 的 秒 数 (这 里 是 2)， 这 样 ， 浏 览 器 
不 会 执行 得 过 快 ， 以 免 你 失去 很 多 乐趣 。 

嘱 ! 现在 我 们 可 以 找到 一 个 站 点 ， 填 充 一 个 表单 ， 提 交 它 ， 并 且 使 用 Selenium ActionChains 

来 遍历 结果 。 正 如 你 看 到 的 ，ActionChains 是 在 浏览 器 中 执行 一 系列 操作 的 有 效 方式 。 你 

可 以 在 Selenium 的 Python 附带 文档 (http://selenium-python.readthedocs.org/) 中 探索 很 

多 很 棒 的 特性 ， 包 括 显 式 的 等 待 (http://selenium-python.readthedocs.io/waits.html#explicit- 

waits， 浏 览 器 可 以 等 待 ， 直到 一 个 特定 的 元 素 被 加 载 ， 而 不 只 是 整个 页 面 加载 完 成 )、 处 


理 警 告 (http://selenium-python.readthedocs.io/api.html#module-selenium.webdriver.common. 



























































alert) 和 保存 截图 (http://selenium-python.readthedocs.io/api.html#selenium.webdriver.remote. 
webdriver.WebDriver.save_screenshot) ， 这 些 对 于 调试 来 说 很 有 用 处 。 


现在 已 经 看 到 Selenium 的 一 些 能 力 ， 你 能 不 能 重 写 我 们 已 经 为 #WeAreFairphone 站 点 编 
写 的 代码 ， 并 且 遍 历 前 100 个 记录 ? [提示 : 如 果 你 不 想 使 用 ActionChains 遍历 每 一 个 
元 素 ， 你 总 是 可 以 使 用 JavaScript ! Selenium 驱动 器 的 execute_script 方法 允许 你 执行 
JavaScript， 就 像 在 浏览 器 控制 台中 执行 JavaScript 一 样 。 你 可 以 使 用 JavaScript 的 scroll 
方法 (https://developer.mozilla.org/en-US/docs/Web/API/Window/scroll) 。Selenium 元 素 对 象 
同样 有 一 个 Location 属性 ， 它 会 返回 页 面 上 元 素 的 x 和 y 坐标 值 。] 


我 们 已 经 学 习 了 如 何 利 用 Selenium 操作 和 使 用 浏览 器 来 进行 网 页 抓 取 ， 但是， 还 没有 结 
束 ! 让 我 们 看 一 下 如 何 使 用 Selenium 和 无 头 浏 览 器 。 

Selenium 和 无 头 浏览 

最 流行 的 无 头 浏览 器 工具 之 一 是 PhantomJS (http:/phantomjs.org/) 。 如 果 你 是 一 个 熟练 的 
JavaScript 开发 者 ， 可 以 直接 在 PhantomJS 中 构建 抓 取 器 。 然 而 ， 如 果 你 想 要 使 用 Python 
尝试 一 下 ， 可 以 使 用 Selenium 和 PhantomJS。PhantomJS 同 GhostDriver (https://github. 
com/detro/ghostdriver) 一 起 工作 ， 打 开 Web 页 面 并 导航 。 


为 什么 使 用 无 头 浏 览 器 ?无 头 浏 览 器 (http://en.wikipedia.org/wiki/Headless_browser) 可 以 
在 服务 器 上 运行 。 相 对 于 普通 的 浏览 器 ， 它 们 可 以 更 快 地 运行 和 解析 页 面 ， 并 且 可 以 在 更 
多 的 平台 上 使 用 。 如 果 最 终 想 要 在 服务 器 上 运行 基于 浏览 器 的 网 页 抓 取 脚 本 ， 你 会 想 要 使 
用 无 头 浏 览 器 。 在 10 分 钟 之 内 就 可 安装 并 运行 一 个 无 头 浏 览 器 ， 而 大 多 数 其 他 浏览 器 需 
要 更 长 的 时 间 来 正确 加 载 和 运行 (取决 于 你 使 用 的 功能 和 部 署 的 方式 )。 
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12.1.2 ”使 用 Ghost.py 进 行 屏幕 读 取 


Ghost.py (http://jeanphix.me/Ghost.py/) 是 一 个 用 于 屏幕 读 取 的 WebKit 实现 ， 用 来 直接 
与 Qt WebKit (http://doc.qt.io/qt-5/qtwebkit-index.html) 交互 。Qt WebKit 是 一 个 基于 Qt 
(https://en.wikipedia.org/wiki/Qt_(software)) 的 WebKit 实现 ， 而 Qt 是 一 个 用 C++ 实现 的 跨 
平台 的 应 用 开发 框架 。 
为 了 开始 使 用 Ghostpy， 你 首先 需要 安装 一 些 很 有 效 的 库 。 如 果 你 能 够 安装 PySide 
(https://pypi.python.org/pypi/PySide)， 那 效果 会 是 最 好 的 ， 这 会 允许 Python 同 Qt 通信 ， 给 
Python 访问 更 广泛 程序 和 交互 的 能 力 。 这 个 过 程 会 花 一 些 时 间 ， 所 以 在 开始 运行 安装 之 
后 ， 尽 情 地 去 给 自己 做 一 个 三 明治 吧 ”。 

pip install pyside 

pip install ghost.py --pre 
使 用 Ghost.py 搜索 Python 主页 (http://python.org)， 找 到 新 的 抓 取 文 档 。 开 始 一 个 新 的 
Ghost.py 实例 非常 简单 ; 


from ghost import Ghost 








ghost = Ghost() © 
with ghost.start() as session: 
page, extra_resources = session.open('http://python.org') © 


print page 

print page.url 

print page.headers 
print page.http_status 
print page.content © 


print extra_resources 


for r in extra_resources: 
print r.uUrL @ 


@ 这 行 代 码 调用 Ghost 类 的 会 话 对 象 ， 实 例 化 一 个 Ghost 对 象 来 同 页 面 交 互 。 

@ Ghost 类 的 open 方法 返回 两 个 对 象 ， 所 以 这 行 代码 在 两 个 独立 的 变量 中 捕获 这 些 对 象 。 
第 一 个 对 象 是 用 来 同 HTML 元 素 交 互 的 页 面 对 象 。 第 二 个 对 象 是 页 面 加 载 的 其 他 资源 
列表 〈 你 在 网 络 标签 中 看 到 的 列表 )。 

@ 页 面 对 象 有 很 多 属性 ， 比 如 头 部 、 内 容 、 链 接 和 页 面 上 的 内 容 。 这 行 代码 打印 页 面 的 内 容 。 

@ 这 行 代码 遍历 页 面 的 其 他 资源 ， 并 且 打 印 它们 ， 来 看 是 否 有 用 。 有 时， 这 些 URL 是 
API 调用 ， 可 以 利用 它们 简化 数据 的 访问 。 

Ghost.py i 上 我 们 能 够 洞察 页 面 使 用 的 资源 (在 第 一 次 使 用 open 方法 打开 页 面 时 ， 通 过 一 个 













































































注 2: 如 果 你 在 安装 PySide 时 碰 到 了 问题 ， 查 看 与 操作 系统 相关 的 项 目 文档 。 你 可 以 选择 安装 PyQt (http:/ 
pyqt.sourceforge.net/Docs/PyQt5/installation.html)。 你 也 可 以 通过 GitHub 上 的 安装 文档 (https://github. 
com/jeanphix/Ghost.py#installation) 检查 更 新 。 
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元 组 给 出 ) 和 真实 页 面 上 的 许多 特性 。 同 样 可 以 使 用 .content 属性 来 加 载 页 面 的 内 容 ， 这 
样 如 果 想 要 使 用 其 中 一 个 页 面 解析 器 解析 它 ， 比 如 LXML， 我 们 可 以 做 得 到 ， 并 且 仍 然 使 
用 Ghost.py 进行 交互 。 








当前 ，Ghost.py 的 大 多 数 能 力 在 于 执行 页 面 上 的 JavaScript 代码 (不 是 
jQuery) ， 所 以 你 可 能 需要 打开 Mozilla 开发 者 网 络 的 JavaScript 指南 (https:// 
developer.mozilla.org/en-US/docs/Web/JavaScript)。 这 会 帮助 你 更 加 容易 地 搜 
索 和 找到 同 Ghost.py 一 起 使 用 的 JavaScript。 











由 于 对 于 在 Python 主页 中 搜索 抓 取 库 感 兴趣 ， 让 我 们 看 一 下 是 否 可 以 定位 输入 框 : 


print page.content.contains('input') © 


result, resources = Session.evaLuate( 
'document.getElementsByTagName("input");') © 


print result.keys() 
print result.get('length') © 
print resources 


@ 测试 页 面 上 是 否 存 在 一 个 input 标签 (大 多 数 的 搜索 框 是 简单 的 输入 对 象 ) 。 这 会 返回 
一 个 布尔 值 。 

@ 使 用 一 些 简单 的 JavaScript 来 找到 页 面 上 所 有 以 “input” 为 标签 名 称 的 元 素 。 

@ 打印 来 看 响应 中 的 JavaScript 数组 的 长 度 。 


根据 JavaScript 结果 ， 在 页 面 上 ， 只 有 两 个 输入 。 为 了 确定 使 用 哪 一 个 ， 看 一 下 第 一 个 是 
否 合 适 。 
result, resources = session.evaluate( 
'document.getElementsByTagName("input")[0].getAttribute("id");') © 


























print result 


@ 末 引 结果 列表 ， 获 取 id 属性 。JavaScript 直接 给 出 了 元 素 的 CSS 属性 ， 所 以 这 是 一 个 查 
看 选择 元 素 的 相关 CSS 的 有 用 方式 。 


类 似 于 在 Python 中 素 引 结果 ， 也 可 以 在 JavaScript 中 索引 它们 。 我 们 想 要 第 一 个 输入 元 
素 ， 之 后 抓 取 输 入 的 CSS id。 


甚至 可 以 编写 一 个 JavaScript for 循环 (https://developer.mozilla.org/en-US/docs/ 
Web/JavaScripVReference/Statements/for ) 来 遍历 getELementsByTagName 函数 返回 
的 列表 ， 通 过 这 种 方式 来 检查 属性 。 如 果 你 希望 在 浏览 器 中 尝试 JavaScript， 可 
以 使 用 控制 台 完成 这 件 事 〈 见 图 11-12)。 


























通过 id 的 名 称 (id-search-fietd)， 已 经 定位 了 搜索 字段 元 素 ， 现 在 发 送 一 些 数据 到 这 个 字段 : 
result, resources = ghost.set field value("input", "scraping") 


这 段 代码 使 用 set_field_value 方法 ， 它 需要 一 个 选择 器 (这 里 就 是 "input")， 并 且 发 送 
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给 它 一 个 字符 串 ("scraping")。Ghost.py 同样 有 一 个 fill 方 法 (http://jeanphix.me/Ghost. 
py/#form)， 它 会 发 送 一 个 值 的 字典 ， 来 填充 一 系列 匹配 的 表单 字段 。 这 在 有 多 个 字段 要 填 
充 时 很 有 用 处 。 现 在 填充 了 检索 词 ， 让 我 们 看 一 下 是 否 能 够 提交 查询 。 我 们 看 到 这 在 一 个 
表单 中 ， 所 以 可 以 直接 尝试 进行 一 次 表单 提交 : 


page, resources = session.fire("form", "submit", expect loading=True) © 





print page.url 


@ 这 行 代码 调用 Ghost.py 的 fire 方 法 ， 这 会 触发 一 个 JavaScript 事件 。 我 们 想 给 表单 元 
素 发 送 一 个 信号 ， 以 提交 事件 ， 这 样 它 会 提交 搜索 ， 并 导航 至 下 一 页 。 设 置 expect_ 
loading 为 True， 这样 Ghostpy 知道 我 们 在 等 待 页 面 加 载 。 

这 有 效 吗 ?在 测试 中 ， 当 运行 这 段 代码 时 ， 收 到 了 超时 响应 。 我 们 会 在 本 章 后 文中 讨论 超 

时 ,但 是 这 意味 着 Ghost.py 停止 等 待 啊 应 ， 因 为 这 花费 了 太 长 的 时 间 。 当 你 处 理 抓 取 器 提 

交 数 据 任务 时 ， 找 到 一 个 合适 的 超时 时 间 ， 对 于 保证 脚本 继续 工作 是 必需 的 。 让 我 们 堂 试 

一 个 不 同 的 提交 方式 。Ghost.py 可 以 同 页 面 元 素 交 互 并 且 点 击 ， 让 我 们 尝试 一 下 。 


result, resources = session.click('button[id=subnit]') © 





























print result 


for r in resources: 
print r.urt 所 
@ Ghostpy 的 cLick 方法 使 用 JavaScript 选择 器 点 击 对 象 。 这 行 代码 点 击 id="submit" 的 
按钮 。 
@ 对 于 大 多 数 通 过 Ghost.py 的 交互 ， 你 会 收 到 一 个 结果 和 一 个 资源 列表 。 这 行 代 码 查 看 
代码 交互 返回 的 资源 。 
别 一 一 点 击 提交 按钮 ， 我 们 得 到 了 一 个 看 起 来 像 是 控制 台 的 URL。 让 我 们 看 一 下 是 否 可 以 
看 到 Qt WebKit 看 到 的 内 容 。 类 似 于 Selenium 的 save_screenshot 方法 ，Ghost.py 允许 我 
们 查看 页 面 。 

















在 使 用 无 头 部 或 不 能 脱离 代码 使 用 的 WebKit 浏览 器 时 ， 有 时 页 面 表现 得 会 
与 在 普通 浏览 器 中 有 所 不 同 。 当 使 用 Ghost.py 或 PhantomJS 时 ， 你 会 想 要 利 
用 屏幕 截图 来 “查看 ”无 头 或 kit 浏览 器 正在 使 用 的 页 面 。 











可 以 使 用 Ghost.py 的 show 方法 来 “查看 ”该 页 面 : 

session. show() 
你 会 看 到 打开 了 一 个 新 窗口 ， 展 示 出 同 抓 取 器 所 看 到 的 相同 的 站 点 。 它 应 该 类 似 于 图 12-3。 
喔 ! 我 们 正在 页 面 的 中 间 。 堂 试 向 上 滚动， 从 男 外 的 角度 看 一 下 。 


session.evaluate('window.scrollTo(0, 0);') 








session.show() 


现在 它 应 该 看 起 来 类 似 于 图 12-4。 
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Calculations are simple with Python, and expression syntax is straightforward: the operators 


and / work as expected; parentheses ( ) can be used for grouping. 


Python isa programming language that lets you work quickly and 
integrate systems more effectively. »> Learl 








() Get Started 坦 Download 

Whether you're new to programming or an Python source code and installers are available 
experienced developer, it's easy to learn and for download for all versions! Not sure which 
use Python. version to use? Ch 





Latest: Python 3 





Start with our Beginners Guide 








12-3: Ghost 页 面 
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12-4: Ghost 页 面 顶端 
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个 视图 帮助 我 们 理解 错误 。 页 面 并 没有 像 在 普通 浏览 器 中 那样 完整 地 打开 ， 搜索 和 提交 
和 人 一 个 解决 方案 是 使 用 更 大 的 视窗 重新 打开 页 面 ， 或 者 为 提交 设置 一 个 更 长 的 
超时 时 间 。 








正如 你 可 以 在 文档 (http://ghost-py.readthedocs.io/en/latest/index.html) 中 看 到 
的 那样 ， 我 们 创建 的 第 一 个 Ghost 对 象 可 以 接受 类 似 viewport_size 和 wait_ 
timeout 的 参数 。 如 果 你 希望 重启 浏览 器 ， 设 置 一 个 更 大 的 视窗 或 一 个 更 长 
的 超时 时 间 ， 这 些 都 是 合理 的 修正 。 


现在 ， 看 看 是 否 可 以 使 用 一 些 JavaScript 来 将 它 提交 : 


result, resources = session.evaluate( 

'document .getELementsByTagName("input")[0].vaLue = "scraping";') © 
result, resources = session.evaluate( 

'document .getElementsByTagName("form")[0].subnit.click()') 所 


@ 完全 使 用 JavaScript 设置 输入 值 为 “scraping 。 
名 使 用 JavaScript 国 数 调用 表单 的 提交 元 素 ， 并 主动 点 击 它 。 


现在 如 果 再 一 次 运行 show， 你 会 看 到 图 12-5 所 示 的 页 男 




















o 














Search Python.org 


scraping 


Search 





Results 


Ancient Releases 


Andrew Dalke was clever and persistent enough to scrape Python 0.9.1 out of the Usenet alt.sources archives 
and assemble a compressed tarball. It's here mostly as a historical relic. 











12-5: Ghost 搜索 
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我 们 使 用 Qt 浏览 器 成 功 地 执行 了 搜索 。 一 些 功 能 还 没有 像 Selenium 一 样 流畅 ， 但 是 
Ghost.py 仍然 是 一 个 相当 年 轻 的 项 目 。 


你 可 以 通过 评估 版 本 号 来 评估 一 个 项 目的 年 龄 。 在 编写 本 书 的 时 候 ，Ghost. 
py 仍然 低 于 1.0 版 本 (事实 上 ， 本 书 可 能 只 能 兼容 0.2 发 布 版 )。 它 可 能 会 在 
未 来 的 几 年 里 有 大 量 的 改变 ， 但 是 这 是 一 个 非常 有 趣 的 项 目 。 我 们 鼓励 你 通 
过 向 作者 提交 想法 以 及 研究 和 修复 bug 来 帮助 它 。 









































现在 ， 我 们 已 经 学 习 了 Python 中 几 种 与 浏览 器 交互 的 不 同方 式 ， 让 我 们 做 一 些 惟 取 ! 


12.2 ” 惟 取 网 页 


如 果 你 需要 从 网 站 的 多 个 页 面 上 抓 取 数 据 ， 殿 虫 可 能 是 最 好 的 解决 方案 。 网 络 慌 虫 (或 者 
机 器 人 ) 很 适合 跨越 整个 域名 或 站 点 (或 一 系列 的 域名 或 站 点 ) 寻找 信息 。 


你 可 以 将 扑 虫 视 为 一 个 高 级 的 抓 取 器 ， 通 过 它 你 可 以 利用 页 面 读 取 抓 取 器 的 


能 力 (类 似 于 在 第 11 章 中 学 到 的 )， 并 且 在 整个 站 点 中 应 用 匹配 URL 模式 
的 规则 。 









































爬虫 可 以 帮助 你 了 解 网 站 的 结构 。 例 如 ， 站 点 可 能 包含 一 个 你 并 不 知道 的 完整 的 子 章节 ， 甚 
中 包含 一 些 有 趣 的 数据 。 使 用 候 虫 遍历 域名 ， 你 可 以 找到 子 域 或 其 他 对 报告 有 用 的 相关 内 容 。 
当 你 构建 展 虫 时 ， 首 先 研究 感 兴趣 的 站 点 ， 然 后 创建 页 面 读 取 的 代码 来 识别 和 读 取 内 容 。 
一 旦 仆 虫 构建 完毕 ， 你 可 以 创建 一 个 遵循 的 规则 列表 ， 扑 虫 会 使 用 它 找到 其 他 有 趣 的 页 面 
和 内 容 ， 同 时 解析 器 会 使 用 你 创建 的 页 面 读 取 抓 取 器 收集 和 保存 内 容 。 





























使 用 限 虫 时 ， 你 需要 事先 明确 想 要 什么 内 容 ， 或 者 首先 使 用 一 个 宽泛 的 方法 
探索 站 点 ， 然 后 重新 编写 它 ， 使 其 更 明确 。 如 果 你 选择 了 广 撒 网 的 方法 ， 可 
能 需要 在 之 后 做 很 多 数据 清洗 的 工作 ， 以 将 发 现 的 内 容 缩小 至 可 用 数据 集 。 








我 们 会 使 用 Scrapy 开始 创建 第 一 个 爬虫 。 


12.2.1 使 用 Scrapy 创 建 一 个 怜 虫 


Scrapy (http://scrapy.org/) 是 最 强大 的 Python 网 络 仆 虫 。 它 赋予 你 在 Python 异步 网 络 引 擎 
Twisted (http://twistedmatrix.com/trac/) 之 上 使 用 LXML ( 见 11.5 节 ) 的 能 力 。 如 果 你 需 
要 一 个 特别 快 的 候 虫 ， 并 能 够 同时 处 理 大 量 的 任务 ， 我 们 强烈 推荐 Scrapy。 

Scrapy 有 一 些 很 棒 的 内 置 特性 ， 包 括 导 出 不 同 格式 的 结果 (CSV、JSON 等 )， 一 个 易 用 
的 可 运行 满足 不 同 需求 的 多 个 抓 取 器 的 服务 端 部 署 结构 ， 以 及 其 他 一 系列 优雅 的 特性 ， 比 
如 使 用 中 间 件 来 处 理 代 理 请 求 或 重 试 状态 码 失败 的 请 求 。Scrapy 会 将 遇 到 的 错误 打印 到 日 
志 ， 这 样 你 可 以 更 新 和 修改 代码 。 

为 了 恰当 地 使 用 Scrapy， 你 需要 学 习 Scrapy 类 系统 。Scrapy 使 用 几 个 不 同 的 Python 类 来 
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解析 网 页 并 且 返 回 好 的 内 容 。 当 定义 一 个 爬虫 类 时 ， 你 也 定义 了 规则 和 其 他 的 类 属性 。 这 
些 规则 和 属性 在 仆 虫 开始 抓 取 网 页 时 使 用 。 当 定义 一 个 新 的 仆 虫 的 时 候 ， 你 正在 使 用 一 个 
叫 继承 (inheritance) 的 东西 。 

















继 承 
继承 让 你 能 够 将 一 个 类 作为 基 类 ， 在 其 基础 上 构建 额外 的 属性 或 方法 。 
通过 Scrapy， 当 继承 一 个 疏 虫 类 时 ， 同 样 继承 了 有 用 的 内 置 方法 与 属性 。 之 后 通过 改 
变 一 些 方 法 和 属性 ， 它 们 就 是 专属 于 你 的 息 贝 了 。 
Python 的 继承 是 显而易见 的 : 你 开始 定义 一 个 类 ， 并 且 将 另外 的 类 名 称 放 置 在 
类 定义 的 括号 内 (例如 ，class NewAwesomeRobot(0ld Robot):)。 新 的 类 (这 里 是 
NewAwesomeRobot) 继承 自 括号 内 的 类 (这 里 是 0LdRobot)。Python 让 我 们 得 以 使 用 这 
种 直接 继承 ， 这 样 当 编 写 新 的 类 时 ， 可 以 积极 地 复 用 代码 。 
继承 允许 我 们 使 用 Scrapy 库 中 丰富 的 抓 取 知识 ， 只 需要 重新 定义 一 些 方 法 和 一 些 初 始 
化 想 虫 属性 











Scrapy 使 用 继承 来 定义 在 页 面 上 抓 取 的 内 容 。 对 于 每 一 个 Scrapy 项 目 ， 你 会 收集 一 系列 的 
对 象 ， 并 且 可 能 会 创建 一 些 不 同 的 疏 虫 。 扑 虫 会 抓 取 页 面 ， 使 用 在 设置 中 定义 的 任何 格式 
返回 对 象 〈 即 数据 ) 。 


相 比 我 们 使 用 过 的 其 他 抓 取 网 页 的 库 ， 使 用 Scrapy 爬虫 需要 更 多 的 组 织 ， 但 是 它 相 当 直 
观 。 组 织 Scrapy 抓 取 器 便于 复 用 、 共 享 和 更 新 项 目 。 


有 一 些 不 同类 型 的 Scrapy 扑 虫 ， 让 我 们 研究 一 下 它们 的 主要 相似 点 和 不 同 处 。 表 12-1 提 
供 了 一 个 总 结 。 


表 12-1: 疏 虫 类 型 





























疏 虫 名 称 主要 目的 文档 
Spider 用 来 解析 特定 数量 的 站 点 http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spider. 
和 页 面 Spider 


Crawl Spider 遵循 一 组 关于 如 何 解 析 链 http://doc.scrapy.org/en/latest/topics/spiders.html#crawlspider 
接 和 识别 页 面 内 容 的 正则 
表达 式 规则 ， 解 析 域 名 

XMLFeed Spider 来 解析 XML feeds ( 比 http://doc.scrapy.org/en/latest/topics/spiders.html#xmlfeedspider 

如 RSS)， 从 节点 中 拉 取 

内 容 

CSVFeed Spider 用 来 解析 CSV feeds (或 http://doc.scrapy.org/en/latest/topics/spiders.html#csvfeedspider 

RL)， 从 行 中 拉 取 信息 

SiteMap Spider 根据 给 定 的 域名 列表 ， 解 http://doc.scrapy.org/en/latest/topics/spiders.html#sitemapspider 

析 站 点 地 图 


对 于 通常 的 网 页 抓 取 ， 你 可 以 使 用 Spider 类 。 对 于 更 高 级 的 、 遍 历 整 个 域名 的 抓 取 ， 使 用 
CrawlSpider 类 。 如 果 你 有 XML 或 CSV 格式 的 feeds 或 文件 ， 特 别 是 当 它 们 非常 大 时 ， 使 
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用 XMLFeedSpider 和 CSVFeedSpider 来 解析 它们 。 如 果 你 需要 查看 站 点 地 图 (你 自己 的 站 点 
或 其 他 站 点 )， 使 用 SiteMapSpider。 


为 了 进一步 熟悉 两 个 主要 的 类 (Spider 和 Crawlspider)， 构建 一 些 不 同 的 仆 虫 。 首 先 , 使 
用 一 个 Scrapy 仆 虫 创建 一 个 抓 取 器 来 仆 取 相同 的 emoji 表情 页 面 (http://www.emoji-cheat- 
sheet.com)。 为 此 ， 我 们 使 用 普通 的 Spider 类 。 首 先 使 用 pip 安装 Scrapy。 


pip install scrapy 


同样 建议 你 安装 service_identity 模块 ， 这 个 模块 提供 了 一 些 好 用 的 特性 ， 在 扑 取 网 页 时 提 
供 安全 集成 。 


pip install service identity 


通过 Scrapy， 你 可 以 使 用 一 个 简单 的 命令 来 启动 一 个 项 目 。 确 保 你 正在 想 要 使 用 候 虫 的 目 
录 下 ， 因 为 这 个 命令 会 为 仆 虫 创建 一 系列 的 文件 夹 和 子 文件 夹 : 


scrapy startproject scrapyspider 


如 果 你 列 出 所 有 当前 文件 夹 下面 的 文件 ， 应 该 会 看 到 一 个 有 很 多 子 文件 夹 和 文件 的 新 的 
父 文 件 夹 。 正 如 Scrapy 站 点 (https://doc.scrapy.org/en/latest/intro/tutorial.html#creating-a- 
project) 文档 中 描述 的 ， 有 一 些 不 同 的 配置 文件 〈 主 文件 夹 下 的 scrapy.cfg 和 项 目 文件 夹 下 
的 settings.py， 以 及 一 个 放置 仆 虫 文件 的 文件 夹 和 一 个 用 来 定义 对 象 的 文件 )。 


在 创建 抓 取 器 之 前 ， 需 要 定义 想 要 在 页 面 数据 中 收集 的 对 象 。 打 开 items.py 文件 位 于 项 
目 文件 夹 的 先 套 文件 夹 内 ) ， 并 且 修 改 它 来 保存 页 面 数据 。 


# -*- coding: utf-8 -*- 

# 在 这 里 定义 为 要 抓 取 的 对 象 定义 模型 
# 

# 参见 文档 : 
# http://doc.scrapy.org/en/latest/topics/itenms.htnml 




































































import scrapy 


class EmojiSpiderItem(scrapy.Item): © 
emoji_handle = scrapy.FieLd() @ 
emoji_image = scrapy.Field() 
section = scrapy.Field() 


@ 通过 继承 scrapy.Iten 创建 了 新 的 类 。 这 意味 着 我 们 有 了 这 个 类 的 内 置 方法 和 属性 。 

加 为 了 定义 每 一 个 字段 或 数据 值 ， 在 类 中 添加 了 一 个 新 的 行 ， 设 置 了 属性 名 称 ， 并 且 通 过 
将 其 设置 为 scrapy.Field() 对 象 来 初始 化 。 这 些 字 段 支 持 任何 普通 的 Python 数据 结构 ， 
包括 字典 、 元 组 、 列 表 、 浮 点 数 、 小 数 和 字符 串 。 

你 可 能 注意 到 items.py 文件 主要 是 事先 编辑 好 的 。 这 是 个 非常 好 的 功能 ， 让 你 能 够 快速 

开始 开发 ， 并 确保 有 合适 的 项 目 结构 。startproject 命令 提供 所 有 这 些 工具 ， 是 开始 新 

Scrapy 项 目的 最 好 方式 。 你 同样 可 以 看 到 ， 创 建 一 个 新 的 类 来 收集 数据 是 很 简单 的 。 只 需 

要 几 行 Python 代码 ， 就 可 以 定义 关心 的 域 ， 并 准备 好 爬虫 中 使 用 的 对 象 。 
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为 了 从 谎 虫 类 开始 ， 在 新 项 目 目录 结构 中 的 spiders 文件 夹 下 创建 一 个 新 的 文件 ， 名 为 


emo_spider.py: 





import scrapy 
from emojispider.items import EmojiSpiderIten © 


class EmoSpider(scrapy.Spider): © 
name = "emo' 
allowed_domains = ['emoji-cheat-sheet.com'] @ 
start vrls = [ 
'http://www.emoji-cheat-sheet.com/', © 


] 


def parse(self, response): @ 
self.log('A response from %s just arrived!' % response.url) @ 


@ 所 有 Scrapy 导入 使 用 项 目 根 目录 作为 模块 导入 起 始点 ， 所 以 需要 在 导入 中 包含 父 文件 
夹 。 这 行 代 码 从 emojispider.items module 导入 了 EmojisSpiderItenm 类 。 

@ 使 用 继承 定义 了 Emospider 类 ， 新 的 类 基于 简单 的 scrapy.Spider 类 。 这 意味 着 仆 虫 将 
需要 特定 的 初始 化 属性 (https://doc.scrapy.org/en/latest/topics/spiders.html#spider) ， 这 样 
它 知道 去 抓 取 哪 一 个 URL， 以 及 如 何 处 理 抓 取 的 内 容 。 我 们 在 下 面 的 几 行 中 定义 了 这 
些 属 性 (start_urls、name 和 aLLowed_domains ) 。 

全 蚊虫 名 称 是 我 们 在 命令 行 任务 中 识别 出 念 虫 时 会 用 到 的 。 

@ allowed_domains 告诉 惟 虫 疏 取 哪些 域名 。 如 果 疏 虫 遇 到 一 个 链接 指向 的 域名 不 在 该 列表 
中 ， 它 会 忽略 这 个 链接 。 这 个 属性 在 编写 爬 取 抓 取 器 时 很 有 用 ， 这 样 如 果 链 接 不 符合 规 
则 ， 抓 取 器 就 不 会 尝试 去 怜 取 所 有 的 Twitter 或 Facebook 网 页 。 你 同时 也 可 以 传递 子 域 。 

@ Spider 类 使 用 start_urls 属性 来 志 历 要 爬 取 的 URL 列表 。 在 CrawLSpider 里 ， 这 些 是 
找到 更 多 匹配 的 URL 的 起 点 。 

@ 这 行 代码 重新 定义 了 扑 虫 的 parse 方法 ， 通 过 在 类 中 使 用 def 和 方法 名 称 定 义 该 方法 执 
行 一 些 逻 辑 。 为 类 定义 方法 时 ， 你 总 是 从 传递 self 开始 。 这 是 因为 调用 方法 的 对 象 将 
是 第 一 个 参数 ( 即 ，list.append() 首先 传递 列表 对 象 本 身 ， 然 后 传递 括号 中 的 参数 ) 。 
parse 国 数 的 下 一 个 参数 是 响应 。 正 如 在 文档 (https://doc.scrapy.org/en/latest/topics/ 
spiders.html#scrapy.spiders.Spider.parse) 中 提 及 的 ，parse 方法 将 需要 一 个 响应 对 象 。 最 
后 用 冒号 终结 这 一 行 ， 正 如 定义 任何 其 他 的 函数 时 所 做 的 。 

@ 为 了 测试 息 虫 ，Scrapy 入 门 指南 中 的 这 行 代码 使 用 候 虫 的 Log 方法 ， 发 送 一 条 信息 到 日 
志 中 。 使 用 响应 的 URL 属性 来 展示 响应 的 地 址 。 

为 了 运行 这 个 Scrapy 谎 虫 ， 我 们 要 确保 正 处 于 恰当 的 目录 中 (scrapy spider 和 其 中 的 

scrapy.cfg 文件 )， 之 后 运行 命令 行 参数 来 解析 页 面 : 

scrapy crawl emo 
日 志 会 显示 扑 虫 开始 运行 ， 并 且 显 示 出 哪些 中 间 件 正在 运行 。 之 后 ， 几 平 在 最 后 ， 你 应 该 
能 看 见 类 似 下 面 的 输出 : 


2015-06-03 15:47:48+0200 [emo] DEBUG: A resp from www.emoji-cheat-sheet.com 
arrived! 
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2015-06-03 15:47:48+0200 [emo] INF0: Closing spider (finished) 
2015-06-03 15:47:48+0200 [emo] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 224, 
'downloader/request_count': 1, 
'downloader/request_method_count/GET': 1， 
'downloader/response_bytes': 143742， 
'downloader/response_count': 1， 
'downloader/response_status_count/200': 1， 
'finish_reason': 'finished', 
'finish time': datetime.datetime(2015, 6, 3, 13, 47, 48, 274872), 
'log_count/DEBUG': 4， 
'log_count/INFO': 7， 
'response_received count': 1， 
'scheduler/dequeued': 1， 
'scheduler/dequeued/memory': 1， 
'scheduler/enqueued': 1， 
'scheduler /enqueued/memory': 1， 
'start time': datetime.datetime(2015, 6, 3, 13, 47, 47, 817479)} 


抓 取 器 大 概 一 秒 解析 一 个 页 面 。 同 样 可 以 看 到 来 自 parse 方法 的 日 志 。 酪 ! 我 们 成 功 地 定 
义 了 第 一 个 对 象 和 类 ， 能 够 创建 并 且 运 行 它们 。 
下 一 步 是 真正 地 解析 页 面 ， 拉 取 内 容 。 让 我 们 尝试 另外 一 个 内 置 的 特性 ，Scrapy shell。 它 
类 似 于 Python 或 命令 行 shell， 但 是 附带 所 有 可 用 的 候 虫 命令 。 有 了 该 shell， 研 究 页 面 和 
确定 如 何 得 到 页 面 内 容 变 得 非常 简单 。 为 了 启动 Scrapy shell， 只 需 运 行 : 

scrapy shell 


你 应 该 看 到 了 一 个 可 用 选项 或 可 以 调用 的 函数 的 列表 。 其 中 一 个 为 fetch。 让 我 们 测试 一 
下 这 个 函数 : 
fetch('http://www.emoji-cheat-sheet.com/') 


你 现在 应 该 看 到 了 一 些 类 似 于 抓 取 输 出 的 输出 结果 。 其 中 一 些 信息 显示 已 念 取 URL， 之 后 
返回 一 个 新 的 可 用 对 象 列表 。 其 中 一 个 是 response 对 象 。 啊 应 对 象 和 你 在 parse 方法 中 使 
用 的 相同 。 让 我 们 看 一 下 是 否 可 以 找到 一 些 同 响应 对 象 交 互 的 方式 ; 

response.url 


response.status 
response.headers 


这 其 中 的 每 一 项 都 应 该 返回 一 些 数据 。url 与 我 们 编写 日 志 信 息 时 使 用 的 URL 相同 。 
status 告诉 我 们 HTTP 响应 的 状态 码 。headers 应 该 提供 一 个 服务 器 返回 的 头 部 字典 。 


输入 response， 点 击 Tab， 你 会 看 到 一 个 完整 的 可 用 的 方法 与 属性 列表 ， 以 
及 响应 对 象 。 你 同样 可 以 在 IPython 终端 中 对 任何 其 他 的 Python 对 象 做 这 
件 事 。” 
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注 3: 如 果 你 安装 了 IPython， 就 会 在 使 用 的 大 多 数 Python shell 中 看 到 该 tab 实现 。 如 果 没 有 看 到 它 ， 你 
可 以 添加 一 个 .pythonrc 文件 到 计算 机 (http://stackoverflow.com/questions/246725/how-do-i-add-tab- 
completion-to-the-python-shell) ， 并 且 将 它 赋 值 给 PYTHONSTARTUP 环境 变量 。 














每 一 个 响应 对 象 同样 会 有 一 个 xpath 和 css 方法 。 这 些 方法 类 似 于 贯 罕 本 章 和 第 11 章 的 
选择 器 。 正 如 你 已 经 猜 到 的 ，xpath 希望 你 发 送 一 个 XPath 字符 串 ， 而 css 希望 得 到 一 个 
CSS 选择 器 。 让 我 们 看 一 下 使 用 已 经 为 这 个 页 面 写 好 的 XPath 选择 页 面 上 的 一 些 对 象 : 


response.xpath('//h2|//h3') 
运行 该 命令 ,你 会 看 到 一 个 类 似 于 下 面 的 列表 : 


[<Selector xpath='//h2|//h3' data=u'<h2>People</h2>'>, 
<Selector xpath='//h2|//h3' data=u'<h2>Nature</h2>'>, 
<Selector xpath='//h2|//h3' data=u'<h2>0bjects</h2>'>, 
<Selector xpath='//h2|//h3' data=u'<h2>Places</h2>'>, 
<Selector xpath='//h2|//h3' data=u'<h2>Symbols</h2>'>, 
<Selector xpath='//h2|//h3' data=u'<h3>Campfire also supports a few sounds<'>] 


现在 让 我 们 看 一 下 ， 是 否 可 以 只 读 取 这 些 头 部 中 的 文本 内 容 。 在 使 用 Scrapy 时 ， 你 会 想 要 
精确 地 抽取 出 正在 寻找 的 元 素 ，( 在 编写 本 书 时 ) 没有 get 或 text_content 方法 。 让 我 们 
看 一 下 是 否 可 以 使 用 XPath 知识 来 从 头 部 中 选择 文本 : 


for header in response.xpath('//h2|//h3'): 
print header.xpath('text()').extract() 


你 应 该 会 得 到 类 似 下 面 的 输出 : 


[u'People'] 
[u'Nature'] 
[u'Objects'] 
[u'Places'] 
[u'Symbols'] 
[u'Campfire also supports a few sounds'] 


可 以 看 到 extract 方法 会 返回 一 个 匹配 元 素 的 列表 。 可 以 使 用 @ 符 号 来 表示 属性 ， 用 


text() 方法 来 拉 取 文本 。 我 们 需要 重 写 一 些 代码 ， 但 现在 可 以 使 用 在 11.5.1 节 中 所 写 的 许 
多 LXML 逻辑 ; 












































import scrapy 
from scrapyspider.items import EmojiSpiderItem 


class EmoSpider(scrapy.Spider): 
name = "emo' 
allowed domains = ['emoji-cheat-sheet.com'] 
start urls -= 
'http://www.emoji-cheat-sheet.com/', 


] 


def parse(self, response): 

headers = response.xpath('//h2|//h3') 

lists = response.xpath('//ul') 

all_itemns = [] @ 

for header, list_cont in zip(headers, lists): 
section = header.xpath('text()').extract()[0] @ 
for li in list_cont.xpath(' li'): 

item = EmojisSpiderItem() © 
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item['section'] = section 
spans = li.xpath('div/span') 
if len(spans): 
link = spans[0].xpath('@data-src').extract() @ 
if link: 
item[ 'emoji_ link'] = response.url + Link[0] © 
handle_code = spans[1].xpath('text()').extract() 
else: 
handle_code = li.xpath('div/text()').extract() 
if handle_code: 
item[ 'emoji_handle'] = handle_code[0] @ 
all_items.append(item) @ 
return all_itens 加 


@ 由 于 每 个 页 面 使 用 多 个 对 象 ， 这 行 代码 在 parse 方法 的 开始 使 用 了 一 个 列表 ， 并 在 遍历 
页 面 的 过 程 中 ， 保 存 一 个 找到 的 对 象 的 列表 。 

@ 不 同 于 在 LXML 脚本 中 调用 header.text， 这 行 代码 定位 到 文本 小 节 (.xpath("text()") )， 
并 且 使 用 extract 函数 抽取 它 。 因 为 我 们 知道 这 个 方法 会 返回 一 个 列表 ， 所 以 这 段 代码 
选择 每 个 列表 中 第 一 个 并 且 唯 一 的 对 象 ， 将 其 赋值 给 section。 

四 这 行 代码 定义 对 象 。 对 于 每 一 个 列表 对 象 ， 通 过 调用 类 名 称 与 一 对 空 括号 创建 了 一 个 新 
的 EmojiSpiderIten 对 象 。 

@ 为 了 抽取 数据 属性 ， 这 行 代 码 使 用 XPath 人 6 选择 器 。 这 段 代 码 选择 第 一 个 span， 并 且 抽 
取 adata-src 属性 ， 这 会 返回 一 个 列表 。 

@ 为 了 创建 完整 的 emoji_tink 属性 ， 这 行 代码 使 用 响应 URL 并 且 添 加 edata-src 属性 中 
第 一 个 列表 对 象 。 为 了 设置 对 象 的 字段 ， 使 用 字典 语法 ， 将 键 〈 即 字段 名 称 ) 赋值 。 如 
果 前 面 代码 没有 找到 edata-src， 那 么 这 行 代码 不 会 执行 。 

@ 为 了 组 合 一 些 代 码 ， 并 且 不 重复 我 们 自己 的 代码 ， 这 段 代 码 找到 emoji 和 声音 的 处 理 字 
符 串 ， 赋 值 给 emoji_handle 字段 。 

@ 在 列表 元 素 每 个 循环 的 最 后 ， 这 行 代码 追加 新 的 对 象 到 aLL_items 列表 。 

@ 在 parse 方法 的 最 后 ， 这 行 代码 返回 了 所 有 找到 的 对 象 的 列表 。Scrapy 会 在 抓 取 中 使 用 
一 个 返回 的 对 象 或 对 象 列表 (通常 通过 保存 、 清 洗 或 者 以 我 们 可 以 阅读 和 使 用 的 格式 输 
出 数据 )。 

现在 添加 了 extract 方法 调用 ， 并 且 更 具体 地 识别 出 了 要 从 页 面 中 抓 取 的 文本 与 属性 。 我 

们 移 除 了 其 中 的 一 些 None 逻辑 ， 因 为 Scrapy 对 象 会 自动 了 解 拥有 哪 一 个 字段 ， 不 拥有 哪 

个 字段 。 出 于 这 个 原因 ， 如 果 导 出 输出 到 CSV 或 JSON， 它 会 同时 显示 空 (null) 行 和 找 

到 的 值 。 现 在 已 经 更 新 了 同 Scrapy 工作 的 代码 ， 再 一 次 调用 crawl 方法 运行 它 。 


scrapy crawl emo 


你 应 该 看 到 一 些 类 似 于 第 一 个 抓 取 的 输出 ， 只 是 多 出 了 几 行 ! Scrapy 会 在 解析 网 页 时 打印 
每 一 个 找到 的 对 象 到 日 志 。 在 最 后 ， 你 会 看 到 相同 的 总 结 输出 ， 显 示 错 误 、 调 试 信 息 和 抓 
取 对 象 的 数量 。 
2015-06-03 18:13:51+0200 [emo] DEBUG: Scraped from 
<200 http://www.emoji-cheat-sheet.com/> 
{'emoji_handle': u'/play butts ' ， 
'section': U'Campfire also supports a few sounds'} 
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2015-06-03 18:13:51+0200 [emo] INFO: Closing spider (finished) 
2015-06-03 18:13:51+0200 [emo] INFO: Dumping Scrapy stats: 
{'downloader/request_bytes': 224， 

'downloader/request_count': 1， 

'downloader/request_method_count/GET': 1， 

'downloader/response_bytes': 143742， 

'downloader/response_count': 1， 

"downLoader/response_status_count/200' : 1， 

'finish_reason': 'finished', 

'finish time': datetime.datetime(2015, 6, 3, 16, 13, 51, 803765), 

'item_scraped_count': 924， 

'log_count/DEBUG': 927， 

'log_count/INFO': 7， 

'response_received count': 1， 

'scheduler/dequeued': 1， 

'scheduler/dequeued/memory': 1， 

'scheduler/enqueued': 1, 

'scheduler/enqueued/memory': 1， 

'start_ time': datetime.datetime(2015, 6, 3, 16, 13, 50, 857193)} 
2015-06-03 18:13:51+0200 [emo] INFO: Spider closed (finished) 


Scrapy 在 少 的 三 惊讶 ! 在 查看 日 志 时 ， 我 们 看 到 所 
有 的 对 象 均 被 解析 和 添加 。 没 有 出 现任 何 的 错误 ， 如 果 有 的 话 ， 会 在 最 后 的 输出 中 看 到 一 
个 错误 数量 ， 类 似 于 DEBUG 和 INF0 输出 行 。 


我 们 还 没有 通过 脚本 得 到 一 个 真正 的 文件 或 输出 。 可 以 使 用 一 个 内 置 的 命令 行 参数 设置 一 
个 。 使 用 一 些 其 他 的 参数 选项 尝试 重新 运行 仆 虫 。 


scrapy CrawL emo -0 items.csv 


在 抓 取 的 最 后 ， 你 的 项 目 根 目录 中 应 该 有 一 个 item.csy 文件 。 如 果 你 打开 它 ， 应 该 会 看 到 
所 有 的 数据 都 被 导 出 到 了 CSV 格式 中 。 你 同样 可 以 导出 .json 和 .xml 文件 ， 所 以 尽情 地 通 
过 改变 文件 名 尝试 这 些 选项 。 

恭喜 ， 你 已 经 搭建 了 第 一 个 网 络 谎 虫 ! 只 需要 几 个 文件 和 不 到 50 行 的 代码 ， 你 就 可 以 在 1 
分 钟 以 内 解析 一 整个 页 面 一 一 超过 900 个 对 象 ， 输 出 这 些 发 现 到 一 个 简单 可 阅读 并 且 可 以 
轻松 分 享 的 格式 文件 里 。 正 如 你 看 到 的 那样 ，Scrapy 是 一 个 非常 强大 又 极其 有 用 的 工具 。 


12.2.2 ”使 用 Scrapy 瓜 取 整 个 网 站 


我 们 已 经 探索 了 使 用 Scrapy shell 和 crawl 来 仆 取 普通 页 面 ， 但 是 如 何 利用 Scrapy 的 能 力 和 
速度 来 仆 取 整个 站 点 ?为 了 研究 CrawLSpider 的 能 力 ， 需 要 首先 确定 要 慌 取 的 内 容 。 让 我 们 
尝试 寻找 PyPI 主页 (http://pypi.python.org) 中 与 抓 取 相关 的 Python 包 。 首 先 ， 查 看 一 下 页 
面 ， 找 出 我 们 想 要 的 数据 。 快 速 搜索 “scrape” (https://pypi.python.org/pypi?:action=search 
&term=scrape&submit=search) 显示 了 一 整个 列表 的 搜索 结果 ,其 中 的 每 一 个 页 面 都 有 更 多 的 
信息 ， 包 括 文档 、 一 个 相关 包 的 链接 、 一 个 支持 的 Python 版 本 的 列表 和 最 近 下 载 的 数量 。 


可 以 围绕 这 些 数据 构建 一 个 对 象 模型 。 一 般 来 说 ， 如 果 不 是 与 相同 的 数据 关联 ， 我 们 会 为 
每 一 个 抓 取 器 创建 一 个 新 的 项 目 ; 但 是 为 了 方便 使 用 ， 我 们 使 用 和 emoji 抓 取 器 相同 的 文 
件 夹 。 从 修改 items.py 文件 开始 : 
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# -x- coding: utf-8 -*- 
# 在 这 里 定义 为 要 抓 取 的 对 象 定义 模型 
# 


# 参见 文档 : 
# http://doc.scrapy.org/en/latest/topics/items.html 





import scrapy 


class EmojiSpiderItem(scrapy.Item) : 
emoji_handle = scrapy.Field() 
emoji_link = scrapy.Field() 
section = scrapy.Field() 


class Pythonpackageltem(scrapy.Itenm): 
package_name = scrapy.Field() 
version_number = scrapy.Field() 
package_downloads = scrapy.Field() 
package_page = scrapy.Field() 
package_short_description = scrapy.Field() 
home_page = scrapy.Field() 
python_versions = scrapy.Field() 
Last_month_downLoads = scrapy.Field() 


我 们 在 旧 的 类 下 面 直接 定义 了 新 的 对 象 类 。 在 类 之 间 保 留 几 个 空 行 ， 这 样 更 容易 阅读 文件 
和 看 到 类 的 不 同 之 处 。 这 里 ,添加 了 Python 包 页 面 中 我 们 感 兴趣 的 一 些 字段 ， 包 括 过 去 一 
个 月 的 下 载 量 、 包 的 主页 、 支 持 的 Python 版 本 以 及 版 本 号 。 


有 了 对 象 定义 ， 可 以 使 用 Scrapy shell 来 研究 Scrapely 页 面 上 的 内 容 。Scrapely 是 Scrapy 
作者 的 一 个 项 目 ， 使 用 Python 来 像 屏 幕 一 样 阅读 HTML。 如 果 还 没有 安装 它 ， 同 样 建议 
安装 IPython， 这 会 确保 你 的 输入 和 输出 看 起 来 和 本 书 中 的 一 样 ， 并 且 提 供 了 一 些 其 他 的 
shell 工具 。 在 shell 中 (后 文 指 scrapy sheLL) ， 需 要 首先 使 用 下 面 的 命令 抓 取 内 容 。 


fetch('https://pypi.python.org/pypi/scrapely/0.12.0') 


可 以 尝试 从 页 面 顶 端的 breadcrumb 标签 中 抓 取 版 本 号 。 它 们 在 ID 为 breadcrumb 的 div 
中 ， 我 们 可 以 编写 一 些 XPath 来 找到 它 。 
In [2]: response.xpath('//div[@id="breadcrumb"]') 


Out[2]: [<Selector xpath='//div[Qid="breadcrumb"]' 
data=u'<div id="breadcrumb">\n <a h'>] 


IPython 的 out 信息 显示 我 们 已 经 正确 地 找到 了 breadcrumb div。 通 过 在 浏览 器 的 检视 标签 
中 检查 元 素 ， 我 们 看 到 文本 位 于 div 中 的 一 个 锚 标 签 中 。 我 们 需要 使 用 XPath 特 化 ， 告 诉 
它 通 过 下 面 这 些 行 代码 去 查找 子 锚 标 签 中 的 文本 : 

In [3]: response.xpath('//div[@id="breadcrumb"]/a/text()') 

Out[3] : 

[<Selector xpath='//div[@id="breadcrumb"]/a/text()' data=u'Package Index'>， 


<Selector xpath='//div[@id="breadcrumb"]/a/text()' data=u'scrapely'>, 
<Selector xpath='//div[@id="breadcrumb"]/a/text()' data=u'0.12.0'>] 


















































现在 可 以 在 最 后 的 div 中 看 到 版 本 号 ， 在 抽取 的 时 候 处 理 最 后 一 个 div。 使 用 正则 表达 式 
做 一 些 测试 ， 确 保 版 本 数据 是 一 个 数字 ( 见 7.2.6 节 )， 或 者 使 用 Python 的 is_digit ( 见 
T7235) 


现在 看 一 下 如 何 获取 页 面 中 略微 复杂 的 部 分 : 最近 一 个 月 的 下 载 量 。 如 果 在 浏览 器 中 检查 
了 这 个 元 素 ， 你 会 看 到 它 位 于 一 个 span 中 的 列表 项 中 的 无 序列 表 中 。 你 会 注意 到 ， 其 中 没 
有 任何 一 个 元 素 有 CSS ID 或 类 。 你 还 会 注意 到 span 不 包括 实际 上 的 单词 “month”( 为 了 
便于 搜索 )。 让 我 们 看 一 下 是 否 可 以 得 到 一 个 有 用 的 选择 器 。 

In [4]: response.xpath('//li[contains(text(), "month")]') 

Out[4]: [] 


喔 ， 使 用 XPath 文本 搜索 寻找 元 素 是 不 容易 的 。 然 而 ， 在 XPath 中 ， 一 个 好 的 技巧 是 如 果 
你 轻微 地 改变 查询 ， 解 析 相 似 的 对 象 ， 有 些 时 候 会 表现 得 完全 不 同 。 尝 试 运行 这 个 命令 : 
In [5]: response.xpath('//Lli/text()[contains(., "month")]') 


Out[5]: [<Selector xpath='//1li/text()[contains(., "month")]' 
data=u' downloads in the last month\n '>] 


看 到 没 ? 为 什么 一 个 有 效 ， 而 其 他 的 却 没 用 呢 ?” 因 为 元 素 是 位 于 ti 元素 的 span， 而 其 他 
文本 位 于 span 之 后 ， 这 迷惑 了 XPath 模式 搜索 的 层次 。 页 面 结构 越 复杂 ， 编 写 一 个 完美 的 
选择 器 就 越 难 。 我 们 想 要 在 第 二 个 模式 中 做 的 有 一 点 不 同一 一 我 们 说 “给 我 位 于 中 且 
其 中 包含 month 的 文本 ”"， 而 不 是 “给 我 一 个 拥有 month 文本 的 tL 元素”"。 这 里 差别 很 小 ， 
但 是 处 理 混乱 的 HTML 时 ， 通过 尝试 不 同 的 选择 器 处 理 困难 的 小 广 是 有 用 处 的 。 


但 是 我 们 真正 需要 的 是 包含 下 载 数 量 的 span。 可 以 使 用 XPath 关系 的 魔力 在 链 路 上 浏览 3 
且 定 位 span。 尝 试 下 面 的 代码 。 
In [6]: response.xpath('//1li/text()[contains(., "month")]/..') 


Out[6]: [<Selector xpath='//\li/text()[contains(., "month")]/..' data=u'<li>\n 
<span>668</span> downloads in t'>] 


通过 使 用 .…. 操作 符 ， 回 退 到 父 节 点 ， 这 样 现在 同时 有 了 span 后 的 文本 和 span 本 身 。 最 后 
一 步 是 选择 span， 这 样 不 需要 担心 剥离 文本 。 
In [7]: response.xpath('//1li/text()[contains(., "month")]/../span/text()') 
Out[7]: [<Selector xpath='//Lli/text()[contains(., "month")]/../span/text() 
data=u'668'>] 
棒 ! 现在 有 了 想 要 找到 的 数字 ， 并 且 它 应 该 在 所 有 的 页 面 上 工作 ， 因 为 它 基 于 页 面 层次 编 
写 ， 并 且 没 有 尝试 去 “猜测 ”内 容 可 能 位 于 哪里 。 

























































































使 用 XPath 技巧 在 shell 中 调试 和 定位 你 想 要 使 用 的 对 象 。 随 着 经 验 的 积累 ， 
你 在 第 一 次 尝试 编写 选择 器 就 会 更 容易 取得 成 功 ， 所 以 鼓励 你 编写 更 多 的 抓 
取 器 ， 通 过 测试 更 多 不 同 的 选择 器 进行 实验 。 








首先 编写 一 个 能 够 使 用 Spider 类 正确 解析 Scrapely 页 面 的 抓 取 器 ， 之 后 将 它 转换 为 使 用 
Crawlspider 类 的 版 本 。 循 序 渐进 地 解决 一 个 有 两 三 个 因素 的 问题 是 个 好 方法 ， 在 完成 一 
部 分 任务 后 再 完成 下 一 个 部 分 。 因 为 需要 使 用 Crawlspider 调试 两 部 分 代码 ( 抓 取 规则 以 
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找到 匹配 的 页 面 和 抓 取 页 面 本 身 )， 所 以 首先 确认 其 中 的 一 部 分 有 效 是 比较 好 的 做 法 。 建 
议 从 构建 一 个 抓 取 器 (可 以 在 一 两 个 匹配 的 页 面 上 工作 ) 开始 ， 之 后 编写 抓 取 规则 来 测试 
候 取 逻辑 。 

下 面 ， 看 一 下 Python 包 页 面 的 完整 的 Spider。 将 它 作 为 一 个 新 的 文件 包含 在 spiders 文件 
夹 中 ， 同 emo_spider.py 文件 一 起 。 我 们 称 它 为 package_spider.py。 


import scrapy 
from scrapyspider.items import PythonPackageItem 
































class PackageSpider(scrapy.Spider): 
name = 'package' 
aLLowed_domains = ['pypi.python.org'] 
start_urls = [ 
"https://pypi.python.org/pypi/scrapeLy/0.12.0 ' ， 
'https://pypi.python.org/pypi/dc-campaign-finance-scrapers/0.5.1', © 
] 


def parse(self, response): 
item = PythonPackageItem() @ 
item['package_page'] = response.url 
item['package_name'] = response.xpath( 
'//div[@class="section"]/hi/text()').extract() 
item['package_short_description'] = response.xpath( 
'//meta[@name="description"]/@content').extract() © 
item[ 'home_page'] = response.xpath( 
'//li[contains(strong, "Home Page:")]/a/@href').extract() @ 
item['python_versions'] = [] 
versions = response.xpath( 
'//\i/a[lcontains(text(), ":: Python ::")]/text()').extract() 
for v in versions: 
version number = v.split("::")[-1] @ 
item[ 'python_versions'].append(version_number .strip()) @ 
item['last_month_downloads'] = response.xpath( 
'//\i/text()[contains(., "month")]/../span/text()').extract() 
item[ 'package_downloads'] = response.xpath( 
'//table/tr/td/span/a[lcontains(@href,"pypi.python.org")]/@href' @ 
) .extract() 
return iten @ 


@ 这 行 代码 添加 一 个 我 们 没有 研究 过 的 额外 的 URL。 使 用 多 个 URL 是 一 种 从 Spider 转 到 
CrawlSpider 时 快速 检查 代码 整洁 性 和 复 用 性 的 好 方法 。 

@ 对 于 这 个 抓 取 器 ， 每 个 页 面 只 需要 一 个 对 象 。 这 行 代码 在 parse 方法 的 开始 创建 了 这 个 对 象 。 

四 在 你 解析 时 ， 学 习 一 些 关 于 搜索 引擎 优化 (SEO) 的 知识 是 获得 易 读 页 面 描述 的 一 种 很 
好 的 方式 。 大 多 数 站 点 会 为 Facebook、Pinterest 和 其 他 共享 信息 的 网 站 创建 简短 的 描 
述 、 关 键 词 、 标 题 和 其 他 元 标签 。 这 行 代码 为 数据 收集 拉 取 描述 。 

@ 包 的 “Home Page”URL 位 于 Li 中 的 一 个 strong 标签 中 。 一 旦 找到 这 个 元 素 ， 这 行 代 
码 只 选择 销 元 素 中 的 链接 。 

@ 版 本 号 链接 位 于 一 个 使 用 :: 分 隔 Python 和 版 本 号 的 表单 对 象 中 。 版 本 号 永远 出 现在 最 
后 ， 这 样 这 行 代码 使 用 : : 作为 分 隔 符 分 割 字符 串 ， 使 用 最 后 的 元 素 。 





























@ 这 行 代码 追加 版 本 文本 (去 除 额 外 的 空格 ) 到 Python 版 本 数组 。 对 象 的 python_versions 
键 现在 会 保存 所 有 的 Python 版 本 。 

@ 可 以 看 到 ， 在 表格 中 有 使 用 pypi.python.org 域名 的 链接 ， 而 不 是 它们 的 MD5 校 验 值 。 
这 行 代码 判断 链接 是 否 有 正确 的 域名 ， 并 只 抓 取 有 正确 域名 的 链接 。 

@ 在 parse 方 法 的 最 后 ，Scrapy 希望 我 们 返回 一 个 对 象 (或 一 个 对 象 列表 )。 这 行 代码 返 

回 这 些 对 象 。 


运行 这 段 代 码 (scrapy crawL package)， 你 应 该 会 得 到 两 个 对 象 ， 并 且 没 有 错误 。 然 而 ， 
你 会 发 现 我 们 得 到 一 些 不 同 的 数据 。 举 个 例子 ， 对 于 每 一 个 下 载 ， 我 们 的 包 数 据 没 有 一 个 
好 的 支持 的 Python 版 本 的 列表 。 如 果 想 要 这 个 列表 ， 可 以 从 表格 中 的 PyVersion 字段 解 
析 ， 并 将 它 与 每 一 个 下 载 匹配 。 你 会 怎样 做 这 件 事 呢 ? (提示 : 这 个 字段 位 于 每 个 数据 行 
的 第 三 列 ，XPath 允许 你 传递 元 素 索 引 。) 我 们 同样 注意 到 数据 有 一 些 混乱 ， 就 像 下 面 的 输 
出 (为 了 匹配 页 面 进行 了 格式 化 ， 你 的 输出 会 看 起 来 有 一 些 不 同 ) 所 展示 的 一 样 。 


2015-09-10 08:19:34+0200 [package_test] DEBUG: Scraped from 
<200 https://pypi.python.org/pypi/scrapely/0.12.0> 
{'home_page': [u'http://github.com/scrapy/scrapely'], 

'last_month_downloads': [u'668'], 
'package_downloads': 
[u'https://pypi.python.org/packages/2.7/s/' + \ 
'scrapely/scrapely-0.12.0-py2-none-any.whl', 
u'https://pypi.python.org/packages/source/s/' + \ 
'scrapely/scrapely-0.12.0.tar.gz'], 
'package_name': [u'scrapely 0.12.0'], 
'package_page': 'https://pypi.python.org/pypi/scrapely/0.12.0', 
'package_short_description': 
[u'A pure-python HTML screen-scraping library'], 
'python_versions': [uy'2.6', J'2.7']} 


有 儿 个 字段 原本 希望 是 字符 串 或 整数 值 ， 但 是 取而代之 的 是 一 个 字符 串 数组 。 让 我 们 在 定 
义 爬 虫 规则 之 前 创建 一 个 辅助 方法 来 清洗 数据 。 


import scrapy 
from scrapyspider.items import PythonPackageItem 












































class PackageSpider(scrapy.Spider): 
name = 'package' 
aLLowed_domains = ['pypi.python.org'] 
start urls := [ 
'https://pypi.python.org/pypi/scrapely/0.12.0', 
'https://pypi.python.org/pypi/dc-campaign-finance-scrapers/0.5.1', 
] 


def grab_data(self, response, xpath_sel): ©@ 

data = response.xpath(xpath_seL) .extract() @ 
if Len(data) > 1: © 

return data 
elif Len(data) == 1: 

if data[0].isdigit(): 

return int(data[0]) @ 
return data[0] ©@ 
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return [] @ 


hh 


def parse(self, response): 


item = PythonPackageItem() 
item['package_page'] = response.url 
item['package_name'] = seLf.grab_data( 
response, '//div[@class="section"]/hi/text()') @ 
item['package_short_description'] = seLf.grab_data( 
response, '//meta[@name="description"]/@content') 
item['home page'] = seLf.grab_data( 
response, '//li[contains(strong, "Home Page:")]/a/@href') 
item['python_versions'] = [] 
versions = seLf.grab_data( 
response, '//li/a[contains(text(), ":: Python ::")]/text()') 
for v in versions: 
item['python_versions'].append(v.split("::")[-1].strip()) 
item['last_month_downloads'] = seLf.grab_data( 
response, '//li/text()[contains(., "month")]/../span/text()') 
item[ 'package_downloads'] = seLf.grab_data( 
response, 
'//table/tr/td/span/a[lcontains(@href,"pypi.python.org")]/@href') 
return item 


@ 这 行 定义 了 一 个 新 的 方法 以 使 用 self 对 象 〈 这 样 展 虫 可 以 像 普通 方法 一 样 调用 它 ) 、 响 
应 对 象 以 及 长 长 的 XPath 选择 器 来 查找 内 容 。 

@ 这 行 代码 使 用 新 的 函数 变量 抽取 数据 。 

@ 如 果 数 据 的 长 度 大 于 1， 这 行 代码 返回 列表 。 我 们 可 能 想 要 所 有 的 数据 ， 所 以 原样 返 

@ 如 果 数 据 的 长 度 等 于 1， 并 且 数 据 是 一 个 数字 ， 这 行 代码 返回 整数 。 这 可 能 会 是 下 载 数 
量 的 情况 。 

@ 如 有 果 数 据 的 长 度 等 于 1， 但 是 不 是 一 个 数字 ， 这 行 代码 只 返回 这 个 数据 。 这 会 匹配 包含 
链接 和 简单 文本 的 字符 串 。 

@ 如 果 国 数 没有 返回 ， 这 行 代码 返回 一 个 空 列 表 。 这 里 使 用 一 个 列表 ， 因 为 我 们 希望 
extract 在 没有 找到 数据 的 时 候 返 回 空 列表 。 如 果 使 用 None 类 型 或 者 空 字符 串 ， 你 可 能 
需要 修改 其 他 的 代码 ， 来 保存 它 到 CSV。 

包 这 行 代码 调用 新 的 函数 ， 并 且 使 用 下 面 的 参数 触发 self.grab_data: 响应 对 象 和 XPath 
选择 字符 串 。r 使 用 其 他 内 置 输出 功能 。 


现在 我 们 有 了 相当 干净 的 数据 和 代码 ， 并 且 更 少 地 重复 自己 的 代码 。 我 们 可 以 更 加 深入 地 
优化 它 ， 但 是 为 了 不 让 你 眼花 练 乱 ， 先 来 定义 候 取 规则 。 扑 取 规则 由 正则 表达 式 实现 ， 通 
过 定义 页 面 位 置 和 遵循 的 URL 类 型 ， 告 诉 仆 虫 去 哪里 念 取 。( 第 7 章 介 绍 了 正则 表达 式 ， 
是 不 是 很 棒 ? 你 现在 已 经 是 专业 的 了 ! ) 如 果 看 一 下 包 的 链接 (https://pypi.python.org/ 
pypi/dc-campaign-finance-scrapers/0.5.1 和 https:Wpypi.python.org/pypi/scrapely/0.12.0) ， 可 以 
看 到 以 下 相似 点 。 


。 它们 都 有 相同 的 域名 ，pypi.python.org ， 并 且 它 们 都 使 用 https。 
。 在 URL 中 ， 它 们 都 有 相同 的 路 径 模式 : /pypi/<name_of the_library>/<version_number>。 
。 库 的 名 称 使 用 小 写字 母 和 破 折 号 ， 版 本 号 由 数字 和 句点 组 成 。 
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可 以 使 用 这 些 相似 性 来 定义 正则 规则 。 在 脚本 中 编写 它们 之 前 ， 先 在 Python 控制 台中 尝试 
它们 。 


import re 





urls = [ 
'https://pypi.python.org/pypi/scrapely/0.12.0', 
'https://pypi.python.org/pypi/dc-campaign-finance-scrapers/0.5.1', 
] 


to_match = 'https://pypi.python.org/pypi/[\w-]+/[\d\.]+' © 


for U in urls: 
if re.match(to_match, uy): 
print re.match(to_match，u).group() © 


@ 这 行 代码 找到 一 个 使 用 https、 域 名 为 pypi.python.org 并 且 还 有 我 们 研究 路 径 的 链接 。 
个 六 是 Pi， 第 二 个 是 有 站 和 号 “的 小 文人 用 fy 可以 和 人 区， 
一 部 分 寻找 有 或 没有 句点 的 数字 ([\d\.]+)。 
外 这 oo 我 们 正在 使 用 正则 表达 式 的 match 方法 ， 因 为 这 是 正则 
Scrapy 爬虫 所 使 用 的 。 


我 们 有 了 一 个 匹配 〈 确 切 地 说 ， 是 两 个 ! )。 现 在 ， 最 后 看 一 下 需要 从 哪里 开始 。Scrapy 
谎 虫 会 首先 使 用 起 始 URL 列表 ， 然 后 跟随 这 些 网 页 找到 其 他 URL。 如 果 再 看 一 下 搜索 结 
果 页 (https://pypi.python.org/pypi?:action=search&term=scrape&submit=search) ， 我 们 会 注意 
到 页 面 使 用 相对 URL， 这 样 只 需要 匹配 URL 路 径 。 我 们 同样 看 到 所 有 的 链接 都 位 于 表格 
中 ， 这 样 可 以 限制 Scrapy 查看 以 找到 用 来 念 取 链接 的 位 置 。 知 道 这 些 后 ， 通 过 添加 仆 取 规 
则 来 更 新 文件 。 

from scrapy.contrib.spiders import CrawlSpider, Rule ©@ 


from scrapy.contrib.linkextractors import LinkExtractor @ 
from scrapyspider.items import PythonPackageItem 
































class PackageSpider(CrawLSpider): © 
name = 'package' 
allowed domains = ['pypi.python.org'] 
start_urls = [ 
'https://pypi.python.org/pypi?%3A' + \ 
"action=search&term=scrape&submit=search ' ， 
'https://pypi.python.org/pypi?%3A' + \ 
'action=search&term=scraping&submit=search', @ 


] 
rules = ( 

Rule(LinkExtractor( 
allow=['/pypi/[\w-J+/[\d\.]+', ], © 
restrict xpaths=['//table/tr/td', ], @ 

» 
follow=True, @ 
callback='parse_package', © 

)s 

) 
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def grab_data(self, response, xpath_sel): 

data = response.xpath(xpath_sel).extract() 
if len(data) > 1: 

return data 
elif len(data) == 1: 

if data[0].isdigit(): 

return int(data[0]) 

return data[0] 

return [] 


def parse_package(self, response): 
item = PythonPackageItem() 
item['package_page'] = response.url 
item['package_name'] = self.grab_data( 
response, '//div[@class="section"]/hi/text()') 
item['package_short description'] = seLf.grab_data( 
response, '//meta[@Nname="description"]/@content') 
item['home page'] = seLf.grab_data( 
response, '//li[contains(strong, "Home Page:")]/a/@href') 
item['python_versions'] = [] 
versions = self.grab_datal 


response, '//li/a[contains(text(), ":: Python ::")]/text()') 
for v in versions: 
version = v.split("::")[-1] 


item[ 'python_versions'].append(version.strip()) 
item['last_month_downloads'] = seLf.grab_data( 

response, '//li/text()[contains(., "month")]/../span/text()') 
item['package_downloads'] = seLf.grab_data( 

response， 

'//table/tr/td/span/a[lcontains(@href,"pypi.python.org")]/@href') 
return item 


@ 这 行 代码 同时 导入 CrawlSpider 类 和 Rule 类 ， 因 为 在 第 一 个 仆 虫 中 ， 我 们 需要 它们 。 

@ 这 行 代码 导入 了 LinkExtractor。 上 默认 的 链接 抽取 器 使 用 LXML (我 们 知道 如 何 编 写 它 ! )。 

@ 这 行 代 码 重 新 定义 了 Spider， 这 样 它 从 Crawlspider 类 继承 而 来 。 由 于 修改 了 这 种 继 
承 ， 需 要 定义 一 个 rules 属性 。 

@ 包含 了 检索 词 为 scrape 和 scraping 的 搜索 页 ， 以 查看 是 否 可 以 找到 更 多 的 Python 包 。 
如 果 你 有 不 同 的 让 脚本 开始 搜索 的 起 始点 ， 可 以 在 这 里 添加 一 个 长 列表 。 

@ 这 行 代码 设置 了 allow 来 使 用 正则 匹配 页 面 上 的 链接 。 因为 只 需要 相关 的 链接 ， 所 以 只 
从 匹配 的 链接 开始 。allow 接受 一 个 列表 ， 所 以 如 果 你 有 不 止 一 个 类 型 的 URL 想 要 匹 
配 ， 可 以 在 这 里 添加 多 个 aLLow 规则 。 

@ 这 行 代码 限制 了 谎 虫 到 结果 表格 中 。 这 意味 着 爬虫 只 会 去 表格 列 中 的 数据 行 寻 找 匹 配 
链接 。 

@ 这 行 告诉 了 跟随 〈 即 加 载 ) 匹配 链接 的 规则 。 有 些 时 候 ， 对 于 一 些 页 面 你 可 能 只 想 解 析 
并 获取 内 容 ， 但 是 不 需要 跟随 它 的 链接 。 如 果 想 要 让 爬虫 跟随 页 面 链接 ， 并 且 打 开 它 
们 ， 你 需要 使 用 foLLow=True。 

@ 赋值 给 规则 一 个 回调 函数 ， 并 且 重 新 命名 parse 方 法 来 确认 没有 与 Scrapy 的 
CrawlSpider 类 使 用 的 解析 方法 混淆 。 现 在 解析 方法 叫 作 parse_package， 并 且 疏 虫 在 
跟随 匹配 的 URL 拿 到 我 们 想 要 抓 取 的 页 面 后 会 调用 这 个 方法 。 
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你 可 以 同和 运行 一 个 普通 的 抓 取 器 一 样 ， 运 行 这 个 爬虫 : 
scrapy crawl package 


你 已 经 正式 地 完成 了 第 一 个 仆 虫 ! 是 否 还 有 待 完 善 的 地 方 ? 有 一 个 容易 修复 的 bug 遗留 在 
这 段 代 码 中 了 。 你 能 找到 它 吗 ?如何 修 复 它 ? [提示 : 查看 你 的 Python 版本， 然后 查看 
返回 版 本 的 方式 ( 即 永 远 返 回 一 个 列表 )， 与 grab_data 返回 数据 对 比 。] 看 看 你 是 否 能 够 
在 仆 虫 脚本 中 修复 这 个 问题 。 如 果 不 能 ， 可 以 参考 本 书 仓库 (https://github.com/jackiekazil/ 
data-wrangling)， 得 到 完整 的 修复 后 的 代码 。 


Scrapy 是 一 个 有 效 、 快 速 、 方 便 配 置 的 工具 。 还 有 很 多 值得 探索 ， 你 可 以 阅读 该 库 的 很 棒 
的 文档 (http://doc.scrapy.org/en/latest/)。 配 置 你 的 脚本 来 使 用 数据 库 和 特殊 的 信息 抽取 工 
具 ， 并 且 在 自己 的 服务 器 上 使 用 Scrapyd (http://scrapyd.readthedocs.org/en/latest/) 运行 它 
们 是 很 简单 的 。 和 希望 这 是 你 之 后 众多 Scrapy 项 目的 第 一 个 ! 

现在 你 理解 了 屏幕 读 取 器 、 浏 览 器 读 取 器 和 爬虫 。 让 我 们 看 看 构建 更 加 复杂 的 网 页 爬虫 所 
需要 知道 的 其 他 一 些 事情 。 


、 、 1 人、 
12.3 网络 : 互联 网 的 工作 原理 ， 以 及 为 什么 它 会 
让 脚本 衣 演 

取决 于 运行 抓 取 脚 本 的 频率 ， 以 及 每 个 脚本 工作 的 重要 性 ， 你 可 能 会 碰 到 网 络 问 题 。 是 
的 ， 互 联网 正在 尝试 破坏 你 的 脚本 。 为 什么 ?因为 互联 网 认为 如 果 你 真 的 在 平 ， 你 会 重 
试 。 在 网 页 抓 取 世 界 里 丢失 的 连接 、 代 理 问 题 以 及 超时 间 题 普遍 存在 。 然 而 ， 有 一 些 方法 
可 以 缓解 这 些 问题 。 

在 浏览 器 中 ， 如 果 有 页 面 信息 没有 正确 加 载 ， 你 就 会 点 击 刷新 ， 立 即 发 送 另 一 个 请 求 。 
对 于 抓 取 器 ， 你 可 以 模仿 这 种 行为 。 如 果 你 正在 使 用 Selenium， 刷 新 内 容 会 极其 简单 。 
Selenium 的 webdriver 对 象 有 一 个 refresh 函数 ， 就 像 浏 览 器 一 样 。 如 果 你 已 经 填充 了 一 
个 表单 ， 需 要 重新 提交 表单 ， 前 进 至 下 一 页 (有 时 这 类 似 于 浏览 器 的 行为 )。 如 果 你 需要 
同 警告 或 弹出 窗口 交互 ，Selenium 提供 了 接受 或 拒绝 信息 所 需 的 工具 。 

Scrapy 有 内 置 的 重 试 中 间 件 。 要 启用 它 ， 你 只 需 将 它 添 加 到 项 目的 settings.py 文件 的 中 间 件 
列表 中 。 中 间 件 (https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#module- 
scrapy.contrib.downloadermiddleware.retry) 希望 你 在 设置 中 设 定 一 些 默 认 值 ， 以 便 它 知道 哪些 
HTTP 响应 码 需 要 重 试 〈 例 如 ， 它 需要 只 在 返回 码 为 500 的 时 候 重 试 吗 ? )， 以 及 重 试 的 次 数 。 


如 果 你 没有 指定 这 些 值 ， 它 仍然 会 使 用 文档 中 列 出 的 默认 值 工作 。 如 果 你 看 
到 网 络 错误 ， 然 后 下 载 等 待 时 间 (另外 一 个 全 局 设置 变量 ) 变 长 ， 建 议 你 从 
10 次 重 试 开始 ， 或 者 检查 收 到 的 返回 码 ， 看 看 脚本 是 否 访问 网 站 过 于 频繁 。 
















































































如 果 你 正在 使 用 自己 的 Python 脚本 和 LXML 或 BeautifulSoup， 最 好 是 捕获 这 些 错误 
并 确定 处 理 它 们 的 方法 。 大 多 数 时 间 里 ， 你 会 注意 到 urLLtb2.HTTPError (https://docs. 
python.org/2/library/urllib2.html#urllib2.HTTPError) 异常 的 优势 ， 或 者 ， 如 果 你 正在 使 用 
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requests， 代 码 不 会 加 载 内 容 ， 并 且 失 败 。 在 Python 中 使 用 一 个 try...except 代码 块 ， 你 
的 代码 可 能 看 起 来 像 下 面 一 样 。 


import requests 
import urllib2 














resp = requests.get('http://sisinmaruy.blog17.fc2.com/') 


if resp.status_code == 404: ©@ 


print 'Oh no!!! We cannot find Maru!!' 
elif resp.status_code == 500: 
print 'Oh no!!! It seems Maru might be overloaded.' 


elif resp.status code in [403, 401]: 
print 'Oh no!! You cannot have any Marul 


try: 
resp = urllib2.urlopen('http://sisinmaruy.blog17.fc2.com/') 四 
except urllib2.URLError: © 
print 'Oh no!!! We cannot find Maru!!' 
except urllib2.HTTPError, err: @ 
if err.code == 500: @ 
print 'Oh no!!! It seems Maru might be overLoaded.， 
elif err.code in [403, 401]: 
print 'Oh no!! You cannot have any Maru!’ 
else: 
print 'No Maru for you! %s' % err.code @ 
except Exception as e: @ 
print e 


@ 当 使 用 requests 库 来 查找 网 络 错误 时 ， 检 查 响应 的 status_code。 这 个 属性 会 返回 一 个 
代表 在 HTTP 响应 中 收 到 的 代码 的 整数 。 这 行 代 码 测 试 响应 是 否 为 404 错误 。 

@ 如 果 正 在 使 用 urtlib2， 将 请 求 放 在 一 个 try 语句 中 (正如 这 行 代码 一 样 )。 

四 可 能 会 从 urLLib2 中 看 到 的 一 个 异常 是 URLError。 编 写 一 个 捕获 方法 是 好 的 想法 。 如 果 
它 不 能 解析 域名 ， 可 能 会 抛 出 这 个 错误 。 

@ 可 能 看 到 的 另外 一 个 异常 是 HTTPError。 任 何 有 关 HTTP 请 求 错误 的 响应 都 会 抛 出 这 个 
错误 。 通 过 添加 冒号 和 err， 捕 获 了 错误 ,并且 将 它 保 存在 变量 err 中 ， 这 样 可 以 打印 
































错误 到 日 志 。 
© 现在 捕捉 到 了 错误 ， 并 且 将 其 赋值 给 前 行 代码 中 的 err， 这 行 代码 判断 code 属性 ， 来 查 
看 HITP 错误 码 。 


@ 对 于 所 有 其 他 的 HITP 错误 ， 这 行 代码 使 用 else 通过 格式 化 它 到 字符 串 ， 来 展示 错误 码 。 
@ 这 行 代码 捕获 其 他 所 有 可 能 碰 到 的 错误 ， 并 且 展 示 错 误 信 息 。 赋 值 异常 给 变量 。， 并 且 

打印 它 ， 这 样 可 以 阅读 异常 信息 。 
巧妙 地 设计 脚本 ， 让 它 尽 可 能 地 抗 失 败 ， 这 是 一 个 重要 的 步 又 (第 14 章 会 更 详细 地 讨 
论 ) ， 同 时 确保 在 代码 中 有 合适 的 try.. .except 代码 块 来 解释 错误 ， 也 是 进程 中 重要 的 一 
部 分 。 除 了 HTTP 错误， 有 些 时 候 ， 页 面 花费 过 长 的 时 间 来 加 载 。 如 果 抓 取 器 响应 缓慢 或 
磁 到 了 延迟 问题 ， 我 们 可 能 会 调整 超时 时 间 。 
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什么 是 延迟 ? 从 网 络 角度 来 讲 ， 这 是 数据 从 一 个 地 点 发 送 到 另 一 个 地 点 需要 
的 时 间 。 往 返 延 迟 是 从 计算 机 发 送 请 求 到 服务 器 ， 并 且 得 到 响应 花费 的 时 间 。 
延迟 因为 数据 的 传输 而 存在 ， 有 时 数据 需要 传送 几 千 千 米 ， 来 完成 请 求 。 





















































当 编 写 和 规模 化 脚本 时 ， 考 虑 延迟 是 很 好 的 。 如 果 脚 本 所 连接 的 站 点 托管 在 另 一 个 国家 ， 
你 会 经 历 网 络 延迟 。 因 此 你 需要 相应 地 调整 超时 时 间 ， 或 者 创建 一 个 距离 目标 端点 近 的 
服务 器 。 如 果 想 要 添加 超时 时 间 到 Selenium 和 Ghost.py 脚本 ， 你 可 以 在 抓 取 工作 开始 的 
时 候 ， 直 接 添 加 到 脚本 中 。 对 于 Selenium， 使 用 set_page_load_timeout (http://selenium- 
python.readthedocs.io/api.html#selenium.webdriver.remote.webdriver.WebDriver.set_page_ 
load_timeout) 方法 ， 或 使 用 隐 式 / 显 式 的 等 待 (http://selenium-python.readthedocs.io/waits. 
html) ， 这 样 浏览 器 会 等 待 代码 中 特定 的 部 分 加 载 。 对 于 Ghost.py， 你 可 能 需要 传递 wait_ 
timeout 参数 ， 像 Ghost 类 文档 中 定义 的 那样 (http://ghost-py.readthedocs.io/en/latest/#ghost. 
Ghost) 。 


对 于 Scrapy， 抓 取 器 的 异步 特性 和 对 特定 的 URL 重 试 若 干 次 的 能 力 ， 让 超时 设置 变 成 了 
一 个 略微 难 办 的 问题 。 当 然 ， 你 可 以 在 Scrapy 设置 中 使 用 DOWNLOAD_TIMEOUT (http://doc. 
scrapy.org/en/latest/topics/settings.html#download-timeout) 直接 改变 超时 时 间 。 


如 果 你 正在 编写 自己 的 Python 脚本 ， 并 且 使 用 LXML 或 BeautifulSoup 来 解析 页 面 ， 添 
加 超时 到 调用 是 你 的 职责 。 如 果 使 用 requests 或 urLLib2， 你 可 以 在 调用 页 面 的 时 候 直 接 
这 样 做 。 在 requests 中 ,你 可 以 直接 将 其 作为 一 个 参数 ， 添 加 到 get 请 求 中 (http://docs. 
python-requests.org/en/latest/user/quickstart/#timeouts)。 对 于 urtllib2， 你 需要 传递 超时 时 
间 ， 作 为 urlopen 方法 (https://docs.python.org/2/library/urllib2.html#urllib2.urlopen) 的 参数 
之 二 全 

如 果 你 正经 历 持续 的 网 络 方面 的 问题 ， 并 且 脚 本 需要 依据 一 个 稳定 的 日 程 运行 ， 建 议 你 创 
建 一 些 日 志 ， 尝 试 在 另外 一 个 网 络 上 运行 ( 即 不 是 你 的 家 庭 网 络 ， 来 判断 你 的 家 庭 互联 网 
连接 是 否 存在 问题 )， 并 且 测 试 是 否 在 一 个 非 高 峰 时 间 段 运行 会 有 帮助 。 


脚本 在 每 天 下 午 5 点 还 是 上 午 5 点 钟 更 新 对 你 是 否 很 重要 ? 很 可 能 在 下 午 5 
点 钟 你 的 本 地 互联 网 服务 提供 商会 非常 繁忙 ， 而 上 午 5 点 钟 可 能 会 很 安静 。 
如 果 在 高 峰 时 段 你 的 家 庭 网 络 很 难 做 成 事 ， 那 么 很 可 能 你 的 脚本 也 同样 做 不 
了 什么 ! 










































































了 网 络 问题 之 外 ， 你 可 能 会 找到 其 他 破坏 抓 取 脚本 的 问题 ， 比 如 互联 网 在 不 停 变化 这 一 


12.4 变化 的 互联 网 (或 脚本 为 什么 骨 溃 ) 


正如 你 知道 的 ， 网 页 的 重新 设计 、 更 新 的 内 容 管理 系统 和 页 面 结构 的 改变 (一 个 新 的 广告 
系统 、 一 个 新 的 推荐 网 络 等 ) 是 互联 网 中 很 正常 的 一 部 分 。 互 联网 成 长 并 且 变 化 着 。 
此 ， 你 的 网 页 抓 取 脚 本 会 航 镀 。 好 消息 是 ， 有 很 多 的 站 点 只 是 每 年 更 新 一 次 ， 或 几 年 改变 
一 次 。 还 有 些 改变 不 会 影响 页 面 结构 (有 时 样式 更 新 或 广告 更 新 不 会 改变 代码 的 内 容 和 结 
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构 )。 不 要 彻底 失去 希望 ， 很 可 能 你 的 脚本 会 工作 很 长 一 段 时 间 ! 

无 论 怎 样 ， 我 们 不 想 给 你 虚假 的 希望 。 你 的 脚本 最 终 会 月 涡 。 总 有 一 天 ， 你 会 继续 运行 
它 ， 然 后 发 现 它 不 再 工作 了 。 当 发 生 这 些 情况 时 ， 给 自己 一 个 大 大 的 拥抱 ， 为 自己 冲 一 杯 
茶 或 咖啡 ,然后 重新 开始 。 

现在 你 知道 了 更 多 关于 检验 网 站 上 的 内 容 和 为 报告 找 出 最 有 用 的 那 部 分 的 方法 。 你 已 经 有 
了 相当 多 的 代码 ， 大 部 分 仍然 能 够 工作 。 你 现在 处 在 一 个 好 的 调试 阶段 ， 并 且 有 很 多 工具 
任 你 使 用 ， 以 找到 新 的 div 或 包含 所 需 数据 的 表 。 


12.5 几 合 忠告 


当 抓 取 网 页 时 ， 说 慎 是 很 重要 的 。 你 还 需要 了 解 所 在 国家 关于 网 页 内 容 的 法 律 。 一 般 来 
说 ， 如 何 做 到 谨慎 是 很 显然 的 。 不 要 把 别人 的 内 容 当 作 自 己 的 来 用 。 不 要 使 用 已 经 声明 不 
允许 分 享 的 内 容 。 不 要 癌 别 人 或 网 站 发 送 垃圾 邮件 。 不 要 攻击 网 站 或 恶意 地 仆 取 站 点 。 最 
基本 地 ， 不 要 做 一 个 春 人 ! 如 果 你 不 能 同 母亲 或 其 他 亲近 的 人 分 享 正 在 做 的 事情 ， 并 且 感 
觉 良 好 ， 那 就 不 要 做 。 

有 儿 种 方式 来 明确 你 在 互联 网 上 做 的 事情 。 许 多 抓 取 库 允许 你 发 送 User -Agent 字符 串 。 你 
可 以 将 自己 的 信息 或 者 公司 的 信息 放 到 这 些 字符 串 中 ， 这 样 抓 取 者 的 信息 就 很 清晰 。 同 
时 ， 确 保 查 看 站 点 的 robot.txt 文件 (http://www.robotstxt.org/robotstxt.html) ， 它 会 告诉 网 页 
抓 取 器 站 点 中 禁止 候 取 的 内 容 。 


在 构建 候 虫 遍历 一 个 站 点 之 前 ， 看 一 下 站 点 中 你 感 兴趣 的 部 分 是 否 包 含 在 
robot.txt 的 Disallow 小 节 中 。 如 果 它 们 存在 其 中 ， 你 需要 找到 别 的 方式 来 
获得 数据 ， 或 者 联系 站 点 的 拥有 者 ， 看 看 他 们 是 否 会 通过 其 他 方式 为 你 提供 
数据 。 













































































在 互联 网 上 规 规矩 矩 做 好 ， 并 且 在 构建 抓 取 器 时 做 正确 的 事 。 这 意味 着 你 可 以 为 自己 的 工 
作 感 到 骄傲 ， 不 要 麻烦 律师 、 公 司 和 政府 ;放心 地 使 用 收集 的 信息 。 


12.6 ”小结 


现在 在 为 难于 解析 内 容 的 网 页 编写 抓 取 器 时 ， 你 应 该 感到 胸有成竹 。 你 可 以 使 用 Selenium 
或 Ghost.py 打开 浏览 器 ， 读 取 一 个 网 页 ， 同 页 面 交 互 ， 并 且 抽 取 数 据 。 你 可 以 使 用 Scrapy 
来 息 取 整个 域名 (或 一 系列 域名 )， 并 且 抽 取 大 量 的 数据 。 你 同样 可 以 练习 正则 表达 式 语 
法 ， 编 写 自 己 的 Python 类 (在 Scrapy 的 帮助 下 )。 

掌握 这 些 后 ，Python 代码 就 会 顺 其 自然 地 完成 了 。 你 探索 了 一 些 bash 命令 。 你 积累 了 一 
些 非常 棒 的 与 shell 脚本 交互 的 经 验 ， 正 在 成 为 一 名 专业 的 数据 处 理 者 。 表 12-2 列 出 了 本 
章 中 引入 的 新 概念 和 工具 。 
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表 12- 2: 新 的 Python 编 程 概念 与 库 


概念 / 库 目的 

Selenium 库 该 库 用 于 直接 同 网 页 和 它们 的 元 素 交 互 ， 你 可 以 使 用 所 选 的 浏览 器 ， 也 可 以 使 用 无 头 
浏览 器 。 在 你 需要 点 击 元 素 、 在 表单 中 输入 信息 ， 并 且 同 需要 儿 个 请 求 来 加 载 内 容 的 
页 面 交互 时 ， 表 现 良好 

PhantomJS 库 JavaScript 库 ， 作 为 无 头 浏 览 器 ， 用 于 在 服务 器 或 无 浏览 器 机 器 上 进行 网 页 抓 取 。 还 可 
用 来 只 使 用 JavaScript 编 写 抓 取 器 






























































Ghostpy 库 通过 Qt WebKit 而 不 是 通过 传统 的 浏览 器 来 与 网 页 交互 的 库 。 可 以 在 需要 浏览 器 等 相 
似 条 件 下 使 用 ， 有 编写 原生 JavaScript 的 能 力 

Scrapy 库 用 于 跨越 一 个 域名 或 多 个 不 同 域名 聆 取 大 量 网 页 。 在 你 需要 研究 多 个 域名 或 多 种 页 面 
类 型 来 收集 数据 时 很 有 用 处 

Scrapy 爬 取 规则 仆 取 规则 告诉 你 的 仆 虫 匹配 URL 结构 ， 并 识别 出 可 能 存在 该 URL 的 页 面 位 置 。 这 使 























得 聆 虫 可 以 浏览 并 找到 更 多 信息 
后 ， 对 于 抓 取 器 ， 确 保 你 遵循 一 些 基 本 的 逻辑 ( 见 表 12-3)。 
表 12-3: 使 用 哪 一 个 抓 取 器 




















抓 取 器 类 型 库 使 用 场景 
页 面 读 取 抓 取 器 BeautifulSoup、LXML 简单 页 面 抓 取 ， 你 想 要 的 所 有 数据 在 一 次 请 求 
后 全 部 加 载 于 页 面 上 








基于 浏览 器 的 抓 取 器 Selenium、PhantomJS、Ghostpy “基于 浏览 器 的 抓 取 ， 你 需要 同 页 面 上 的 元 素 交 
互 ， 或 这 个 页 面 需要 不 同 的 请 求 加 载 

Web 扑 虫 Scrapy 用 快速 和 异步 的 方式 跨越 多 个 页 面 跟随 链接 或 

解析 相似 的 页 面 。 如 果 你 需要 跨越 整个 域名 或 
一 系列 域名 的 多 个 匹配 ， 这 会 很 有 用 


后 面 几 章 关注 如 何 拓展 使 用 API 的 Web 技巧 ， 以 及 规模 化 和 自动 化 数据 。 这 些 是 将 学 到 
的 所 有 知识 整合 为 一 系列 可 复 用 、 可 执行 的 脚本 的 最 后 几 步 一 一 其 中 一 些 脚本 不 需要 做 任 
何事 情 就 可 运行 。 还 记得 你 在 开始 阅读 本 书 时 想到 的 那些 死记 硬 背 的 任务 吗 ? 以 后 再 也 不 
必死 记 硬 背 它们 了 一 一 继续 阅读 1 
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应 用 编程 接口 


应 用 编程 接口 (application programming interface，API) 听 起 来 是 一 个 很 酷 炫 的 概念 ， 但 
事实 上 并 不 是 。API 是 在 Web 上 共享 数据 的 一 种 标准 方式 。 许 多 网 站 通过 API 端点 来 共享 





数据 。 本 了 





列 日 





时 了 很 多 可 用 的 API， 但 是 下 再 








是 一 些 很 有 用 或 有 趣 的 API。 





。 Twitter (https://dev.twitter.com/overview/api) 


。 US Census (http:/www.census.gov/data/developers/data-sets.htm!l) 
。 World Bank (http://data.worldbank.org/node/9 ) 
。 LinkedIn (https://developer.linkedin.com/docs/rest-api) 


。 San Francisco Open Data (https://data.sfgov.org/) 


这 些 都 是 返回 





数据 的 API 示例 。 你 向 API 发 出 请 求 ， 随 后 API 返回 数据 。API 同样 可 以 作 


为 和 其 他 应 用 交互 的 一 种 方式 。 例 如 ， 我 们 可 以 使 用 Twitter API 来 获得 Twitter 的 数据 ， 
构建 另外 一 个 和 Twitter 交互 的 应 用 (例如 ， 一 个 使 用 API 发 布 推 文 的 应 用 )。Google API 
列表 (https://developers.google.com/apis-explorer/#p/) 是 另外 一 个 示例 ， 大 多 数 API 允许 你 
同 公司 服务 进行 交互 。 使 用 LinkedIn API， 你 可 以 获取 数据 ， 发 布 更 新 到 LinkedIn， 而 不 


需要 通过 访问 Web 界面 。 














务 。 就 我 们 的 目的 而 言 ， 这 个 服务 提供 数据 。 
在 这 一 章 中 ， 你 会 请 求 API 数据 并 且 保 存 到 电脑 。API 通常 会 返回 JSON、XML 或 CSV 
文件 ， 这 意味 着 在 数据 保存 到 本 地 计算 机 之 后 ， 你 需要 应 用 在 本 书 前 几 章 学 到 的 知识 解析 
这 些 数据 。 本 章 使 用 的 API 是 Twitter API。 


我 们 出 于 下 面 儿 个 原 




















因为 API 可 以 做 很 多 不 同 的 事情 ， 所 以 它 应 该 被 认为 是 一 种 服 








因 选 择 Twitter API 作为 样 例 。 首 先 ，Twiiter 是 一 个 众所周知 的 平 





台 。 其 次 ，Twitter 拥有 大 量 的 数据 〈 推 文 )， 人 们 对 分 析 这 些 数 据 有 很 大 的 兴趣 。 最 后 ， 
Twitter API 允许 我 们 探索 许多 API 的 概念 ， 这 正 是 本 章 讨论 的 话题 。 
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Twitter 数据 不 仅 是 非 正 式 的 信息 收集 工具 ， 类 似 于 One Million Tweet Map (http:/ 
onemilliontweetmap.com/) ， 同 时 也 是 更 正式 的 学 术 研 究 工 具 ， 例 如 用 于 预测 流感 趋势 
(http://ieeexplore.ieee.org/document/5928903/?reload=true&tp=&arnumber=5928903&url=http: 
2%2F9%2Fieeexplore.ieee.org%2Fxpls%2Fabs_alljsp%3Farnumber9%93D5928903) ， 以 及 捕获 实 
时 事件 的 发 生 ， 例 如 地 震 (http://dl.acm.org/citation.cftm?id=1772777)。 


13.1 API 特 性 


API 可 以 像 数据 响应 请 求 一 样 简 单 ， 但 是 很 难 找到 只 有 这 个 功能 的 API 了 。 大 多 数 的 API 
还 有 其 他 有 用 的 特性 。 这 些 特 性 包括 多 种 不 同 的 API 请 求 方 法 (REST 或 流 式 请 求 )、 数 
据 时 间 惟 、 频 率 限制 、 数 据 分 级 ， 以 及 API 访问 对 象 (key 和 token) 。 让 我 们 通过 Twitter 
API 的 上 下 文 看 一 下 这 些 特性 。 





























13.1.1 REST API 与 流 式 API 


Twitter API 有 两 种 形式 : REST API 和 流 式 API。 大 多 数 的 API 是 REST 形式 的 ， 但 是 一 
些 实时 服务 通常 会 提供 流 式 API。REST 的 全 称 为 Representational State Transfer (表述 性 
状态 转移 )， 被 设计 用 来 构建 稳定 的 API 架构 。 可 以 使 用 requests 库 ( 见 第 11 章 ) 来 获 
取 REST API 的 数据 。 通 过 requests 库 ， 你 可 以 发 出 GET 和 POST Web 请 求 一 一 这 是 REST 
API 用 来 返回 对 应 数据 所 使 用 的 方法 。 在 Twitter 这 个 实例 中 ，REST API 允许 你 查询 推 文 ， 
发 布 推 文 ， 做 Twitter 允许 通过 网 站 做 的 绝 大 多 数 事情 。 


通过 REST API， 你 经 常 可 以 (但 并 不 总 是 可 以 ) 在 浏览 器 中 通过 请 求 API 
链接 预览 查询 。 如 果 在 浏览 器 中 加 载 了 URL， 结 果 看 起 来 像 是 文本 块 ， 你 可 
以 在 浏览 器 中 安装 一 个 格式 化 预览 插件 。 例 如 ，Chrome 有 JSON 文件 的 预 
览 插件 ， 通 过 一 种 更 好 阅读 的 方式 预览 JSON 内 容 。 



































流 式 API 作为 一 种 实时 服务 运行 ， 监 听 对 相关 数据 的 请 求 。 碰 到 流 式 API 时 ， 你 会 想 要 
使 用 一 个 构建 好 的 库 帮助 管理 数据 的 拉 取 。 想 详细 了 人 解 多 Twitter 流 式 API 是 如 何 工 作 的 ， 
可 以 查看 Twitter 网 站 上 的 概述 (https://dev.twitter.com/streaming/overview ) 。 


13.1.2 ”频率 限制 


API 通常 都 有 频率 限制 ， 限 制 用户 在 一 段 时 间 内 能 够 请 求 的 数据 数量 。 频 率 限制 由 API 提 
供 者 出 于 多 种 不 同 的 原因 使 用 。 除 了 频率 控制 ， 你 可 能 还 会 碰 到 对 数据 访问 有 限制 的 APL， 
特别 是 数据 与 商业 利益 相关 时 。 出 于 基础 设施 和 客户 服务 的 考虑 ，API 提供 者 会 想 要 控制 
请 求 的 数量 ， 这 样 服务 器 和 架构 可 以 控制 数据 传输 数量 。 如 果 允 许 每 个 人 在 100% 的 时 间 
使 用 100% 的 数据 ， 这 可 能 会 导致 API 服务 的 月 潢 。 

如 果 遇 到 需要 支付 额外 费用 来 取得 特殊 访问 权限 的 API， 你 需要 确定 是 否 有 能 力 支付 ， 以 
及 数据 对 研究 有 多 大 的 价值 。 如 果 碰 到 有 频率 限制 的 API， 你 需要 确定 是 否 数据 的 一 个 子 
集 就 足够 了 。 如 果 API 有 频率 限制 ， 可 能 会 花费 相当 长 的 时 间 来 收集 一 个 有 代表 性 的 样 
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例 ， 所 以 一 定 要 评估 你 想 要 投入 在 这 之 上 的 努力 程度 。 


API 通常 会 对 所 有 的 用 户 有 频率 控制 ， 因 为 这 样 更 易于 管理 。Twitter 的 API 曾经 也 使 用 这 
种 方式 ， 然 而 ， 随 着 流 式 API 的 出 现 ， 用 法 发 生 了 改变 。Twitter 的 流 式 API 提供 了 数据 
的 常量 流 ， 而 REST API 限制 了 每 15 分 钟 你 可 以 发 出 请 求 的 数量 。 为 了 帮助 开发 者 理解 频 
率 限制 ，Twitter 发 布 了 一 张 图 表 (https://dev.twitter.com/rest/public/rate-limits ) 。 
在 练习 中 ， 我 们 会 使 用 名 叫 获取 搜索 / 推 文 (GET search/tweets) 的 API。 这 个 接口 返回 
包含 特定 搜索 语素 的 推 文 。 如 果 你 查看 文档 (https://dev.twitter.com/rest/reference/get/search/ 
tweets)， 会 发 现 API 返回 JSON 格式 的 数据 ， 频 率 限制 在 每 15 分 钟 180 次 或 450 次 ， 取 
决 于 你 是 以 用 户 还 是 应 用 的 身份 请 求 API。 

保存 来 自 API 资源 的 数据 文件 时 ， 你 可 以 保存 很 多 文件 ， 或 者 将 数据 写 入 一 

个 文件 。 正 如 在 第 6 章 学 到 的 ， 你 也 可 以 保存 推 文 数据 到 数据 库 。 无 论 你 用 

什么 方式 来 保存 数据 ， 确 保定 期 保存 数据 ， 不 丢失 任何 已 经 请 求 的 数据 。 


















































在 第 3 章 ， 我 们 处 理 了 一 个 JSON 文件 。 如 果 在 每 15 分 钟 之 间 最 大 化 API 使 用 频率 ， 可 
以 收集 180 个 JSON 文件 。 如 果 你 磁 到 了 频率 限制 问题 ， 需 要 优化 对 Twitter 或 者 其 他 API 
的 请 求 ， 请 阅读 Twitter 的 “API 频率 限制 ”(https://dev.twitter.com/rest/public/rate-limiting) 
这 篇 文章 中 的 “避免 碰 到 频率 限制 的 一 些 建议 ”这 一 节 。 


13.1.3 ”分 级 数据 卷 

迄今 为 止 ， 我 们 已 经 讨论 了 通过 其 API 可 免费 获取 的 Twitter 数据 。 但 是 或 许 你 想 要 知 
道 怎 样 能 够 得 到 所 有 的 数据 ? 在 Twitter 这 个 实例 中 ， 你 可 能 听 说 过 三 种 数据 访问 级 别 : 
firehose、gardenhose 和 Spritzer。Spritzer 是 免费 的 API。 表 13-1 描述 了 这 些 级 别 之 间 的 不 
同 。 


表 13-1: Twitter feed 类 型 


























feed 类 型 覆盖 可 用 性 花费 

firehose 所 有 推 文 通过 合作 伙伴 可 用 一 一 DataSift (http://datasift.com/) 或 Gnip $$$ 
(https://gnip.com/) 

gardenhose 10% 的 推 文 ”新 的 访问 不 再 可 用 不 可 用 

Spritzer 1% 或 不 到 ”通过 公共 API 可 用 免费 


1% 的 推 文 


看 到 这 些 选 项 你 可 能 会 想 :“ 我 需要 Firehose， 因 为 我 想 要 所 有 的 数据 ! ”但 是 在 你 尝试 取 

得 访问 权限 之 前 ， 需 要 知道 下 面 这 些 事情 。 

。 firehose 是 一 个 很 大 的 数据 。 当 处 理 海量 数据 时 ， 你 需要 规模 化 数据 处 理 。 仅 仅 开 始 查 
询 firehose 提供 的 数据 集 ， 也 会 需要 很 多 的 工程 师 和 服务 器 。 

。 firehose 需要 付费 一 一 一 年 儿 十 万 美元 。 这 不 包括 你 需要 消耗 的 基础 设施 的 花费 ( 即 服 
务 器 空间 和 数据 库 耗 费 )。 使 用 firehose 通常 不 是 一 个 人 可 以 独自 做 的 事情 一 一 通常 ， 
由 一 个 大 型 的 公司 或 者 机 构 支 撑 这 些 花 销 。 
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。 大 部 分 你 真正 需要 的 ， 可 以 从 Spritzer 得 到 。 


我 们 会 使 用 Spritzer， 这 是 Twitter 的 免费 公开 API， 通 过 它 可 以 在 频率 限制 下 取得 推 文 。 
为 了 访问 这 个 API， 我 们 会 使 用 API key 和 token。 


13.1.4 API key 和 token 
API key 和 token 是 用 来 鉴别 应 用 和 用 户 的 方式 。Twitter API key 和 token 可 能 会 让 你 迷惑 。 
这 里 有 四 个 你 需要 了 解 的 概念 。 
。 API key 
标识 应 用 。 
。 API secret 
类 似 于 应 用 的 密码 。 
。 token 
标识 用 户 。 
。 token secret 
类 似 于 用 户 的 密码 。 
这 几 部 分 的 组 合 给 予 我 们 访问 Twitter API 数据 的 权限 。 然 而 并 不 是 所 有 的 API 都 拥有 这 
两 层 标 识 和 密 钥 。Twitter 是 一 个 很 好 的 “最 佳 案例 ”( 即 更 加 安全 的 ) 示例 。 在 一 些 情况 
下 ，API 会 没有 key 或 者 只 有 一 个 key。 
创建 一 个 Twitter API key 和 访问 token 
继续 童工 雇用 的 研究 ， 收 集 Twitter 上 关于 童工 鹿 用 的 讨论 。 创 建 一 个 Twitter API 的 key 
很 简单 ， 但 是 需要 以 下 几 步 。 
(1) 如 果 你 没有 Twitter 账户 ， 先 注册 (https://twitter.com/signup) 5 
(2) 登录 apps.twitter.com。 
(3) 点 击 “ 创 建新 应 用 ”(Create New App) 按钮 。 
(4) 给 你 的 应 用 一 个 名 称 和 描述 。 例 如 ， 名 称 设置 为 “童工 讨论 ” ， 描 述 设 置 为 “ 拉 取 
Twitter 上 关于 童工 的 讨论 ”。 
(5) 给 你 的 应 用 添加 一 个 网 站 这 个 网 站 托管 着 应 用 。 指 引 这 样 写 道 :“ 如 果 你 还 没有 
一 个 URL， 可 以 先 在 此 放置 一 个 占 位 符 , 但 是 记得 之 后 修改 它 。” 我 们 并 没有 这 样 一 
个 网 站 ， 所 以 把 Twitter 的 URL 放 在 这 一 栏 中 。 确 保 你 的 URL 中 包含 了 https， 例 如 : 
https:Wtwitter.com 。 
(6) 同意 开发 者 协议 ， 点 击 “ 创 建 Twitter 应 用 ” (Create Twitter Application ) 。 
在 创建 了 应 用 之 后 ， 你 会 被 带 到 应 用 管理 页 。 如 果 你 找 不 到 这 个 页 面 ， 可 以 通过 回 到 应 用 
起 始 页 (https://apps.twitter.com/) 找到 它 。 


现在 ， 你 需要 创建 一 个 token。 


(1) 点 击 “Keys 和 访问 Tokens”(Keys and Access Tokens) 键 。( 这 里 你 可 以 重 置 key， 同 
样 可 以 创建 一 个 访问 token。 ) 
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(2) 庐 动 到 页 面 底部 ， 点 击 “创建 我 的 访问 token”(Create my access token) 按钮 。 一 旦 你 


























完成 了 这 些 ， 这 个 页 男 























到 访问 token。 


现在 你 应 该 有 了 一 个 消费 者 (API) key 和 一 个 token。 下 国 














。 消费 者 key: 5Hqg6JTZ6cC89huThySd5yZcL 
。 消费 者 secret: Ncploi5tUPbZF19Vdp8Jp8pNHBBfPdXGFtXqoKd6Cqn87xRjQc 
。 访问 token: 3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w 
。 访问 token secret: nsNY13aPGWdm2Qcg010qwqs5bwLBZ1iUVS20E34QsuR4C 


电子 层面 上 
他 们 的 行为 
为 什么 发 布 





负责 。 














key 和 token 的 过 程 中 ， 已 经 禁用 了 本 书包 含 的 key 
暴露 了 key 或 者 token， 这 也 是 你 应 该 做 的 事情 。 如 果 你 需要 创建 一 个 新 的 
key， 去 “Keys 和 访问 Tokens”(Keys and Access Tokens) 栏目 ， 点 击 “ 重 
新 生成 ”(Regenerate) 按钮 。 这 会 为 你 重新 生成 一 个 新 的 API key 和 token。 


现在 有 了 一 个 key， 让 我 们 访问 API ! 


A 


13.2 一 次 曾 


i 会 通过 在 顶部 更 新 来 刷新 。 如 果 再 一 次 滚动 到 页 面 底部 ， 你 会 看 


i 是 我 们 的 key 和 token。 


不 要 跟 任何 人 分 享 你 的 key 或 token ! 如 果 你 和 朋友 分 享 了 key， 他 们 可 以 在 
代表 你 。 如 果 他 们 滥用 这 个 系统 ， 你 可 能 会 失去 访问 权限 ， 并 为 





自己 的 应 用 ? 其 中 一 个 原因 是 我 们 可 以 生成 更 多 个 。 在 生成 新 的 








和 token 如 果 意 外 地 





单 的 Twitter REST API 数 据 拉 取 


有 了 一 系列 的 key 值 ， 现 在 可 以 开始 访问 Twitter 的 API 数据 了 。 在 这 一 节 中 ， 我 们 会 编 
写 一 个 简单 的 脚本 ， 使 用 一 个 搜索 查询 ， 从 API 拉 取 数据 。 这 一 节 中 的 脚本 基于 一 个 由 
Twitter 提供 的 、 作 为 示例 的 Python 代码 片段 (https://dev.twitter.com/oauth/overview/single- 
user#python) 。 这 份 代码 使 用 了 Python OAuth2, OAuth2 是 在 使 用 API 时 为 了 安全 地 识别 和 


连接 而 使 用 的 协议 。 


当下 最 好 的 认证 方式 是 使 用 OAuth2。 一 些 API 可 能 仍 | 
与 OAuth2 在 功能 上 有 所 不 同 ， 并 且 是 一 个 已 经 废弃 的 协议 。 如 果 需 要 使 用 
OAuth1， 你 可 以 使 用 Requests-OAuthlib (https://requests-oauthlib.readthedocs.org/ 


en/latest/) ， 








同 requests 一 起 拉 取 数据 。 当 通过 API 认 











在 使 用 OAuth1。OAuthl 











证 时 ， 确 保 识别 哪 一 个 协 





议 正 在 被 使 用 。 如 果 使 用 了 错误 的 协议 ， 在 尝试 连接 时 ， 你 会 收 到 错误 信息 。 





首先 ， 需要 安装 Python OAuth2: 


pip install oauth2 


打开 一 个 新 文件 ， 导 入 o 


import oauth2 


auth2， 并 且 为 你 的 key 变量 赋值 : 


API_KEY = '5Hqg6JTZ9cC89hUThySd5yZcL' 
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API_SECRET = 'NcploistUPbZF19Vdp8Jp8pNHBBfPdXGFtXqoKkd6Cqn87xRjQc' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13apGWdm2QcgOlOqwqs5bwLBZ1iUVS20E34QsuR4C' 


然后 添加 函数 来 创建 OAuth 连接 : 


def oauth_req(url, key, secret, http_method="GET", post_body="", 
http_headers=None): 

consumer = oauth2.Consumer(key=API_KEY, secret=API_SECRET) 

token = oauth2.Token(key=key, secret=secret) 

client = oauth2.Client(consumer, token) 

resp, content = client.request(url, method=http_method, 
body=post_body, headers=http_headers) 

return content 日 


@ 创建 一 个 oauth2 对 象 的 消费 者 。 消 费 者 是 key 的 所 有 者 。 这 行 代码 给 消费 者 提供 key， 
这 样 消费 者 可 以 顺利 地 通过 API 识别 。 

@ 将 token 赋值 给 oauth2 对 象 。 

@ 创建 客户 端 ， 包 含 消费 者 和 token。 

@ 使 用 函数 参数 url， 通 过 OAuth2 客户 端 执行 请 求 。 

@ 返回 从 连接 接收 到 的 内 容 。 

现在 有 了 一 个 函数 ， 允 许 我 们 连接 到 Twitter API。 然 而 ， 我 们 需要 定义 URL， 并 且 调 用 

函数 。 搜 索 API 文档 (https://dev.twitter.com/rest/public/search) 告诉 我 们 更 多 有 关 想 要 使 

用 的 请 求 的 信息 。 使 用 Web 接口 ， 可 以 看 到 ， 如 果 搜 索 #childlabor， 最 终 得 到 的 URL 是 : 

https://twitter.com/search?q=%23childlabor。 文 档 建 议 重新 格式 化 URL， 所 以 最 终 的 URL 如 

下 : https://api.twitter.com/1.1/search/tweets.json?q=%23childlabor。 


之 后 ， 可 以 把 这 个 URL 作为 一 个 变量 ， 并 使 用 之 前 定义 的 变量 调用 函数 : 


url = 'https://api.twitter.com/1.1/search/tweets.json?q=%23childlabor' 
data = oauth_req(url, TOKEN_KEY, TOKEN_SECRET) 





GOoQ@e 











es 











print(data) 0 
@ 在 最 后 添加 打印 语句 ， 这 样 可 以 看 见 输出 。 


运行 脚本 时 ， 你 应 该 看 到 数据 打印 成 一 个 很 长 的 JSON 对 象 。 你 可 能 记得 JSON 对 象 看 起 
来 和 Python 字典 类 似 ， 但 是 如 果 使 用 print(type(data)) 重新 运行 脚本 ， 你 会 发 现 内 容 是 
一 个 字符 串 。 现 在 我 们 可 以 做 以 下 两 件 事情 中 的 一 件 : 转化 数据 为 一 个 字典 并 开始 解析 
它 ， 或 者 保存 字符 串 到 一 个 文件 ， 之 后 再 解析 。 为 了 继续 在 脚本 中 解析 数据 ， 在 脚本 顶部 
添加 import json。 之 后 ， 在 尾部 ， 使 用 json 加 载 字 符 串 ， 并 且 输 出 它 。 


data = json.Loads(data) 
print(type(data)) 


变量 data 现在 会 返回 一 个 Python 字典。 如 果 你 想 要 将 数据 写 入 一 个 文件 并 且 在 之 后 解析 
它 ， 替 换 为 下 面 的 代码 : 


with open('tweet data.json', 'wb') as data file: 
data_file.write(data) 



























































应 用 编程 接口 | 291 








最 后 的 脚本 应 该 看 起 来 像 下 面 这 样 : 


import oauth2 











API_KEY = '5Hqg6]JTZ9cC89huThySd5yZcL' 

API_SECRET = 'Ncp1oistUPbZF19Vdp8Jp8pNHBBfPdXGFtXqokd6Cqn87xRjQc' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13apPGNdm2Qcg0L9qwqs5bwLBZ1LUVS20E34QsuR4C' 


def oauth_req(url, key, secret, http_method="GET", post_body= 
http_headers=None): 
consumer = oauth2.Consumer(key=API_KEY, secret=API_SECRET) 
token = oauth2.Token(key=key, secret=secret) 
client = oauth2.Client(consumer, token) 
resp, content = client.request(url, method=http_method, 
body=post_body, headers=http_headers) 
return content 


url = 'https://api.twitter.com/1.1/search/tweets.json?q=%23popeindc'" 
data = oauth_req(url, TOKEN_KEY, TOKEN_SECRET) 


with open("data/hashchildlabor.json", "w") as data file: 
data_file.write(data) 


从 这 里 开始 ， 你 可 以 查看 3.2 节 ， 来 解析 数据 。 


13.3 ”使 用 Twitter REST API 进 行 高 级 数据 收集 


从 Twitter 拉 取 单个 数据 文件 并 不 是 非常 有 用 ， 因 为 这 只 返回 大 约 15 条 推 文 。 我 们 希望 执 
行 一 连 串 的 查询 ， 这 样 可 以 收集 尽 可 能 多 的 关于 这 一 话题 的 推 文 。 我 们 会 使 用 另外 一 个 库 
来 做 这 项 工作 一 一 Tweepy。Tweepy 可 以 管理 一 系列 的 请 求 ， 包 括 Twitter 的 OAuth。 首 先 
安装 tweepy: 






































pip install tweepy 


在 脚本 的 最 开始 ， 导 入 tweepy， 并 且 再 一 次 设置 你 的 key: 


import tweepy 


API_KEY = "5Hqg6JTZ0cC89hUThySd5yZcL 

API_SECRET = 'Ncploi5tUPbZF19Vdp8Jp8pNHBBfPdXGFtXqoKd6Cqn87xRjQc' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13aPaNdm2Qcg0L0qwqs5bwLBZ1LUVS20E34QsUR4C 


之 后 将 你 的 API key 和 API secret 传 入 tweepy 的 0AuthHandtLer 对 象 ， 这 个 对 象 会 管理 上 
个 实际 提 到 的 OAuth 协议 。 之 后 设置 你 的 访问 token。 


auth = tweepy.0AuthHandLer(API_KEY，API_SECRET) 0 
auth.set_access_token(TOKEN_KEY, TOKEN_SECRET) 


@ 创建 一 个 对 象 ， 通 过 tweepy 来 管理 API 认证 。 
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@ 设置 访问 token。 
之 后 ， 将 刚刚 创建 的 认证 对 象 传递 给 tweepy .API: 


api = tweepy.API(auth) 


tweepy.API 对 象 可 以 接受 不 同 的 参数 ， 这 给 了 你 请 求 数据 时 控制 tweepy 行为 的 能 力 。 你 
可 以 通过 传递 参数 〈 像 retry_count=3，retry_delay=5) 直接 添加 重 试 和 延迟 。 另 一 个 
有 用 的 选项 是 wait_on_rate_limit， 这 个 选项 会 直到 频率 限制 解除 后 再 去 做 下 一 次 请 求 。 
tweepy 文档 (http://docs.tweepy.org/en/latest/api.html) 中 有 这 些 选项 的 细节 和 更 多 信息 。 
我 们 想 要 使 用 tweepy.Cursor 创建 一 个 和 Twitter API 的 连接 。 然 后 将 API 方法 (这 里 是 
api. search, http://docs.tweepy.org/en/latest/api.html#APTI.search) 和 与 其 相关 的 参数 传递 给 
指针 (cursor)。 


query = '#childlabor' 0 
cursor = tweepy.Cursor(api.search, q=query, lang="en") © 

@ 创建 query 变量 。 

如 使 用 query 创建 cursor， 并 且 限 制 其 只 检索 英语 。 


尽管 Cursor 并 不 是 很 直观 ， 但 是 这 是 一 个 在 数据 库 连 接 中 很 常用 的 编程 名 
词 。 虽 然 API 不 是 数据 库 ， 但 类 名 称 Cursor 可 能 受 API 类 似 数 据 库 使 用 方 
式 的 影响 而 命名 。 你 可 以 在 维基 百科 (https://en.wikipedia.org/wiki/Cursor_ 
(databases)) 上 阅读 更 多 关于 指针 的 内 容 。 



































根据 tweepy 的 文档 (http://tweepy.readthedocs.org/en/latest/api.html) ，cursor 可 以 返回 一 个 在 
单个 对 象 级 别 或 单 页 对 象 级 别 上 的 迭代 器 。 你 同样 可 以 定义 限制 (http://tweepy.readthedocs. 
io/en/latest/cursor_tutorial.html#limits)， 来 确定 cursor 抓 取 的 页 面 数 或 对 象 数 。 如 果 查 看 
print(dir(cursor))， 你 会 看 到 这 里 有 3 个 方法 : ['items'，'iterator'，'pages']。 一 页 返 
回 一 串 对 象 ， 即 在 你 的 查询 下 独立 的 推 文 。 根 据 需要 ， 我 们 会 使 用 页 面 。 


让 我 们 过 历 这 些 页 面 ， 并 且 保 存 数 据 。 在 此 之 前 ， 需 要 做 以 下 两 件 事 。 


(1) 添 加 import json 到 脚本 的 顶端 。 
(2) 在 脚本 的 相同 目录 下 ， 创 建 一 个 名 叫 data 的 文件 夹 。 为 此 ， 在 命令 行 中 运行 mkdir data。 


一 旦 你 完成 了 这 两 件 事 情 ， 运 行 下 面 的 代码 来 遍历 和 保存 推 文 : 











ol 





for page in cursor.pages(): 0 
tweets = [] 【2) 
for item in page: © 
4) 

日 


tweets .append(item._ json) 


with open('data/hashchildlabor.json', 'wb') as outfile: 
json.dump(tweets, outfile) 


@ 对 于 每 一 个 cursor.pages() 返回 的 页 面 …… 
名 创建 一 个 空 列表 来 保存 推 文 。 
四 对 于 页 面 中 的 每 一 个 对 象 (或 推 文 ) …… 





ss 
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@ 抽取 JSON 推 文 数据 ， 保 存 到 推 文 列表 中 。 
@ 打开 一 个 名 为 hashchildlabor.json 的 文件 ， 保 存 这 些 推 文 。 


你 会 注意 到 ， 没 有 保存 太 多 的 推 文 到 文件 。 每 个 页 面 只 有 15 个 推 文 ， 所 以 我 们 需要 找 出 


一 个 方法 来 得 到 更 多 的 数据 。 有 以 下 一 些 选项 。 





。 打开 一 个 文件 ， 并 且 永 远 不 关闭 它 ， 或 者 打开 一 个 文件 ， 在 末尾 追加 信息 。 这 会 创建 一 


个 非常 大 的 文件 。 


。 将 每 一 页 保存 到 自己 的 文件 中 〈 你 可 以 使 用 时 间 惟 来 保证 每 个 文件 有 不 同 的 文件 名 )。 





。 在 你 的 数据 库 中 创建 一 个 新 的 表 来 保存 数据 。 
他 











es 





建 一 个 文件 是 危险 的 ， 因 为 进程 在 任何 时 候 都 可 能 失败 ， 破 坏 数 据 。 除 非 你 只 是 在 进行 


很 小 规模 的 数据 拉 取 (例如 ，1000 条 推 文 )， 或 进行 开发 测试 ， 否 则 你 应 该 使 用 其 他 选择 。 





每 次 都 有 很 多 种 方法 可 以 将 数据 保存 到 新 文件 中 ， 最 普 过 的 一 种 方式 是 使 用 日 期 和 时 间 发 








(https://docs.python.org/2/library/datetime.html) 创建 一 个 文件 ， 或 者 只 是 递增 一 个 数字 ， 
其 添加 到 文件 名 的 末尾 。 


我 们 会 继续 添加 推 文 到 简单 的 数据 库 。 为 此 ， 使 用 下 面 的 函数 。 


def store_tweet(item) : 
db = dataset.connect('sqlite:///data wrangling.db') 
table = db['tweets'] 0 
item json = item._json.copy() 
for k, v in item json.items(): 





if isinstance(v, dict): © 
item json[k] = str(v) 
table.insert(item json) © 


@ 创建 或 访问 一 个 新 表 ， 名 为 tweets。 


1 


名 





@ 检查 推 文中 是 否 含有 字典 对 象 。 由 于 SQLite 并 不 支持 保存 Python 字典 ， 我 们 需要 将 其 





转换 为 字符 串 。 
@ 插入 合法 的 JSON 对 象 。 





我 们 还 需要 添加 dataset 到 import 部 分 的 代码 中 。 在 之 前 保存 页 面 的 地 方 ， 需 要 添加 这 个 














函数 的 使 用 。 确 保 遍 历 每 一 条 推 文 。 最 后 的 脚本 应 该 看 起 来 像 下 面 一 样 。 


import json 
import tweepy 
import dataset 


API_KEY = '5Hqg6]JTZ9cC89hUThySd5yZcL' 

API_SECRET = 'Ncp1oi5tUPbZF19Vdp8Jp8pNHBBfPdXGFtXqokd6Cqn87xRjQc' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13apPGNdm2Qcg0L9qwqs5bwLBZ1LUVS20E34QsuR4C' 


def store_tweet(item) : 
db = dataset.connect('sqLite:///data_wrangLing.db') 
table = db[ 'tweets '] 
item json = item._json.copy() 
for k, v in item json.items(): 
if isinstance(v, dict): 
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item json[k] = str(v) 
table.insert(item json) 


auth = tweepy.0AuthHandLer(API_KEY，API_SECRET) 
auth.set_access_token(TOKEN_KEY, TOKEN_SECRET) 


api = tweepy .API(auth) 


query = '#childlabor' 
cursor = tweepy.Cursor(api.search, q=query, lang="en") 


for page in cursor.pages(): 


for item in page: 
store_tweet(item) 


.4 ”使 用 Twitter 流 式 AP1 进 行 高 级 数据 收集 


本 章 前 文中 提 到 过 ， 有 两 种 类 型 的 Twitter API 可 以 使 用 :REST API 和 流 式 API。 


流 式 

















API 同 REST API 相 比 有 什么 差别 呢 ? 下 面 进行 了 简单 的 概括 。 


。 数据 是 实时 的 ， 而 REST API 只 返回 已 经 发 布 一 段 时 间 的 推 文 。 
。 流 式 API 缺 乏 普遍 性 ， 但 是 在 未 来 ， 随 着 更 多 实时 数据 的 生成 和 曝光 ， 甚 可 用 性 会 变 




















得 越 来 越 高 。 








。 因为 最 新 的 数据 很 有 趣 ， 所 以 很 多 人 对 这 部 分 数据 很 感 兴趣 ， 这 意味 着 你 可 以 在 网 络 上 





让 我 
知识 





找到 很 多 资源 和 帮助 。 





门 创建 一 个 脚本 来 收集 来 自流 式 API 的 数据 。 这 个 脚本 会 使 用 在 这 一 章 覆 盖 到 的 所 有 
。 首 先 编写 最 基础 的 部 分 一 输入 值 和 key 值 。 


from tweepy.streaming import StreamListener 0 
from tweepy import OAuthHandler, Stream © 











API_KEY = '5Hqg6JTZgcC89hUThySsd5yZcL' 

API_SECRET = 'Ncp1lot5tUPbZzF19Vdp8Jp8pNHBBfPdXGFtXqoKd6Cqn87xRjgec' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13apGNdm2Qcg0L9qwqs5bwLBZ1tLUVS20E34QsuR4C' 


导入 StreamListener， 这 会 创建 一 个 流 式 会 话 ， 并 且 监 听信 息 。 
名 导入 之 前 使 用 过 的 0AuthHandler， 以 及 Stream， 后 者 是 真正 处 理 Twitter 的 流 信 息 的 类 。 


这 个 


脚本 中 的 import 语句 和 上 一 个 脚本 中 的 有 少许 不 同 。 这 两 种 方式 都 是 合法 的 ， 只 是 个 


人 偏好 问题 。 下 面 是 这 两 种 方式 的 一 个 快速 比较 。 


方式 1 


import tweepy 


auth = tweepy.0AuthHandLer(API_KEY，API_SECRET) 


方式 2 


from tweepy import OAuthHandler 
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auth = OAuthHandler (API_KEY, API_SECRET) 


通常 情况 下 ， 脚 本 中 没有 频繁 使 用 库 时 使 用 第 一 种 方式 。 在 你 有 一 长 串 代码 ， 想 要 更 清晰 
一 些 的 时 候 ， 也 适合 使 用 第 一 种 方式 。 然 而 ， 当 库 使 用 得 非常 多 时 ， 要 将 其 都 打印 出 来 会 
变 得 令 人 厌烦 ， 同 样 ， 如 果 这 个 库 是 脚本 的 基础 ， 从 这 个 库 导入 的 模块 或 类 对 人 们 来 说 应 
该 很 明显 。 


现在 ， 要 创建 导入 的 StreamListener 类 的 子 类 (在 第 12 章 学 习 的 概念 ) ， 以 履 写 其 中 的 
on_data 方法 。 为 此 ， 在 新 的 类 Listener 中 重新 定义 了 这 个 函数 。 当 有 数据 时 ， 我 们 想 要 
在 终端 中 看 到 它们 ， 所 以 添加 print 语句 到 函数 中 。 


class Listener(StreamListener): 





















































def on_data(self, data): 
print data 
return True 


@ 创建 StreamListener 的 子 类 。 

@ 定义 on_data 方法 。 

@ 输出 推 文 。 

@ 返回 True。StreamListener 有 on_data 方 法 ， 同 样 返回 True。 因 为 我 们 创建 了 子 类 并 重 
新 定义 了 这 个 函数 ， 所 以 必须 在 子 类 方法 中 重复 返回 这 个 值 。 


接 下 来 ,添加 你 的 认证 处 理 逻 辑 : 


auth = OAuthHandler (API_KEY, API_SECRET) 
auth.set_access_token(TOKEN_KEY, TOKEN_SECRET) 


最 后 ， 将 Listener 和 auth 传人 到 Strean 中 ， 开 始 使 用 搜索 词 过 滤 。 在 这 个 案例 中 ， 我 们 
查看 child labor (童工 )， 因 为 它 相 对 于 #childlabor 更 加 普遍 。 


stream = Stream(auth, Listener()) 0 
stream.filter(track=['child labor']) ©@ 


@ 将 auth 和 Listener 作为 参数 传递 ， 创 建 一 个 流 。 
@ 过 滤 流 ， 只 返回 有 child 和 labor 存在 的 条 目 。 
后 的 脚本 如 下 : 


from tweepy.streaming import StreamListener 
from tweepy import OAuthHandler, Stream 


GOoQ@ © 





























API_KEY = '5Hqg6]JTZ9cC89hUThySd5yZcL' 

API_SECRET = 'Ncploi5tUPbZF19Vdp8Jp8pNHBBfPdXGFtXqokd6Cqn87xRjQc' 
TOKEN_KEY = '3272304896-ZTGUZZ6QsYKtZqXAVMLaJzR8qjrPW22iiu9ko4w' 
TOKEN_SECRET = 'nsNY13apGNdm2Qcg0L9qwqs5bwLBZ1LUVS20E34QsuR4C' 


class Listener(StreamListener ) : 





def on_data(self, data): 
print data 
return True 


auth = OAuthHandler(API_KEY, API_SECRET) 
auth.set_access_token(TOKEN_KEY, TOKEN_SECRET) 


stream = Stream(auth, Listener()) 
stream.filter(track=['child labor']) 


下 面 ， 你 需要 添加 代码 ， 通 过 on_data 方 法 ， 像 本 章 之 前 那样 将 推 文保 存 到 数据 库 、 文 件 
或 其 他 的 存储 工具 。 


13.5 “小 结 


能 够 同 应 用 编程 接口 进行 交互 是 数据 处 理 中 很 重要 的 一 部 分 。 在 这 一 章 中 ， 我 们 学 习 了 一 
些 API 基 础 知识 ( 见 表 13-2 中 的 总 结 ) ， 并 且 处 理 了 来 自 Twitter API 的 数据 。 


表 13-2: API 概 念 


















































念 功能 
REST API (与 流 式 API 相 比 ) 返回 数据 ， 并 且 暴 露 静态 的 节点 
流 式 API (与 REST API 相 比 ) 返回 查询 相关 的 实时 数据 
OAuth 和 OAuth2 给 定 一 系列 key 值 和 token 的 认证 
分 级 数据 卷 数据 频率 限制 / 可 用 性 的 不 同 级 别 ， 一 些 需 要 付费 

















key 和 token 标识 用 户 和 应 用 的 唯一 ID 和 密 钥 


我 们 已 经 复 用 了 许多 已 经 知道 的 Python 概念 ， 并 且 在 这 一 章 中 学 习 了 一 些 新 的 Python 概 
念 。 首 先是 tweepy 的 使 用 ， 一 个 处 理 同 Twitter API 交互 的 库 。 你 还 学 习 了 有 关 认 证 和 
OAuth 协议 的 知识 bo 


作为 同 API 交互 的 拓展 ， 第 14 章 会 介绍 你 不 在 场 时 运行 API 脚本 的 知识 。 
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第 14 章 





目 动 化 和 规模 化 


你 已 经 从 API 和 网 站 爬 取 了 大 量 的 数据 ， 也 已 经 清洗 和 组 织 了 数据 ， 并 且 运 行 了 统计 学 分 


析 ， 生 成 了 可 视 化 报告 。 
章 中 ， 我 们 会 介绍 如 何 





现在 是 时 候 让 Python 大 展 身 手 ， 自 动 化 你 的 数据 处 理 了 。 在 这 一 
自动 化 数据 分 析 、 收 集 和 发 布 。 我 们 会 学 习 如 何 创建 合适 的 日 志和 


警报 ， 这 样 可 以 充分 地 自动 化 脚本 ， 得 到 成 功 、 失 败 以 及 工作 中 碰 到 的 任何 问题 的 通知 。 


我 们 还 会 学 习 使 用 Python 库 规模 化 








自动 化 程序 ， 帮 助 执行 多 个 任务 ， 并 且 监 控 它 们 的 成 功 


和 失败 。 我 们 会 分 析 一 些 库 和 辅助 工具 ， 充 分 地 在 云端 规模 化 数据 。 

Python 提供 了 大 量 的 自动 化 和 规模 化 选择 。 有 一 些 简单 直接 的 任务 可 以 在 几乎 所 有 的 机 
器 上 自动 化 执行 ， 而 不 需要 太 多 的 设置 ， 同 时 也 有 一 些 更 大 型 、 更 复杂 的 方式 来 实现 自动 
化 。 我 们 会 涉及 这 两 者 的 示例 ， 同 时 也 会 讲解 作为 数据 处 理 者 如 何 规模 化 数据 自动 化 。 


14.1 为 什么 要 自动 化 


自动 化 提供 了 一 种 轻松 运行 脚本 的 方式 ， 而 不 需要 在 本 地 机 器 上 执行 脚本 ， 其 至 不 需要 你 
醒 着 ! 自动 化 的 能 力 意 味 着 你 可 以 把 时 间 花 在 其 他 的 思维 密集 型 项 目 上 。 如 果 拥 有 一 个 完 
备 的 脚本 来 执行 数据 清洗 ， 你 就 可 以 专注 于 研究 数据 ， 写 出 更 好 的 报告 。 


下 



































下 是 一 些 自动 化 可 以 帮 上 人 忙 的 示例 。 











每 周二 输出 一 些 新 的 分 析 结 果 ， 你 要 编制 一 份 报告 ， 并 将 其 发 送 给 相关 方 。 
其 他 部 门 或 同事 需要 能 够 在 没有 你 的 指导 和 支持 下 运行 报告 工具 或 清洗 工具 。 


你 需要 每 周 进行 一 次 数据 下 载 、 清 洗 和 发 送 。 
每 次 用 户 请 求 新 报告 ， 报 告 脚 本 需要 运行 ， 并 | 
你 需要 每 周 清洗 一 次 数据 库 里 错误 的 数据 ， 并 1 
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昌 在 报告 生成 后 通知 用 户 。 
昌 将 其 备份 到 其 他 地 方 。 




















这 其 中 的 每 一 个 问题 都 有 无 数 的 解决 方案 ， 但 是 有 一 件 事 是 确定 的 : 它们 是 非常 适合 自动 
化 的 任务 。 它 们 的 输出 和 步 又 非常 清晰 。 它 们 有 一 个 有 限 但 特定 的 听众 群体 。 它 们 有 确定 
的 时 间或 事件 来 触发 行动 。 此 外 ， 在 特定 的 环境 下 它们 都 是 可 以 用 脚本 和 程序 解决 的 事情 。 


当 任 务 清晰 、 定 义 完整 ， 并 且 输 出 非常 容易 确定 的 时 候 ， 自 动 化 是 最 容易 的 。 不 管 怎样 ， 
即使 输出 并 不 总 是 很 容易 测试 或 预测 ， 自 动 化 也 可 以 帮助 完成 任务 的 一 部 分 ， 把 剩余 的 留 
给 你 (或 其 他 人 ) 更 细致 地 研究 和 分 析 。 你 可 以 想象 这 里 的 自动 化 类 似 于 你 在 生活 中 自动 
化 其 他 的 事情 。 你 可 能 有 一 个 最 喜欢 的 已 保存 的 比萨 订单 ， 或 者 一 个 邮件 的 自动 回复 。 如 
有 果 一 个 任务 输出 明确 并 定期 发 生 ， 那 么 这 是 一 个 很 适合 自动 化 的 任务 。 


但 是 什么 时 候 不 应 该 自动 化 呢 ? 以 下 条 件 预 示 着 该 任务 不 是 一 个 好 的 自动 化 选择 。 


王 务 很 少 发 生 ， 并 且 非 常 复杂 ， 自 己 做 更 好 (例如 ， 填 写 报税 单 )。 

E 务 的 成 功 输出 很 难 确定 (例如 ， 小 组 讨论 、 社 会 研究 或 调查 )。 

王 务 需 要 与 人 交互 来 确定 合适 的 完成 方式 (例如 ， 交 通 导 航 、 诗 歌 翻 译 )。 

插 务 成 功 是 当务之急 。 

其 中 的 一 些 例子 ， 尤 其 是 需要 人 工 输入 的 例子 ， 适 合 一 定 程度 的 自动 化 。 有 些 任 务 可 以 通 
过 让 机 器 寻找 建议 来 做 部 分 自动 化 ， 之 后 再 确定 这 些 建议 是 对 还 是 错 (使 用 人 工 反 馈 的 机 
器 学 习 )。 甚 他 的 任务 ， 比 如 少见 又 复杂 的 任务 ， 或 者 是 非常 重要 的 商业 任务 ， 随 着 对 任 
务 的 熟悉 ， 可 能 最 后 会 实现 自动 化 或 部 分 自动 化 。 但 是 你 可 以 看 到 整体 的 逻辑 来 确定 什么 
时 候 自 动 化 更 好 ， 什 么 时 候 这 不 是 一 个 好 的 想法 。 


如 果 你 不 确定 自动 化 是 否 适合 你 ， 可 以 尝试 自动 化 一 些 定期 运行 的 小 任务 ， 看 它 如 何 工 
作 。 一 段 时 间 后 ， 你 很 可 能 会 发 现 更 合适 的 解决 方案 ， 而 且 自 动 化 一 件 事 的 经 验 会 使 你 在 
未 来 自动 化 更 多 的 事情 更 加 容易 。 


14.2 ”上 自动 化 步骤 


因为 自动 化 从 一 个 清晰 简单 的 目标 开始 ， 所 以 自动 化 的 步 又 应 该 同样 清晰 和 简单 。 文 档 化 
下 面 的 问题 对 开始 自动 化 特别 有 帮助 (通过 列表 、 白 板 、 图 纸 或 故事 板 )。 

。 任务 何 时 开始 ? 

。 这 个 任务 是 否 有 时 间 限 制 或 最 大 长 度 ? 如 果 有 的 话 ， 什 么 时 候 结束 ? 

。 对 这 个 任务 来 说 ， 有 哪些 必需 的 输入 ? 

。 对 这 个 任务 来 说 ， 什 么 是 成 功 或 部 分 成 功 ? 

。 如 果 任 务 失败 ， 应 该 发 生 什么 ? 

。 任务 产生 或 提供 什么 ? 面向 谁 ? 以 何 种 方式 ? 

。 在 任务 结束 后 应 该 发 生 什么 (如果 有 的 话 ) ? 

如 果 能 够 回答 其 中 5 个 或 更 多 的 问题 ， 你 就 可 以 开始 自动 化 。 如 果 不 能 ， 在 你 开始 自动 化 
之 前 ， 需 要 做 更 多 的 研究 和 说 明 。 如 果 要 自动 化 之 前 从 来 没有 做 过 的 事情 ， 或 者 不 是 经 党 
做 的 事情 ， 在 执行 任务 时 尝试 文档 化 它 ， 然 后 确定 你 是 否 能 够 回答 上 述 问题 。 
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如 果 你 的 项 目 太 大 或 太 模 糊 ， 淮 试 将 它 分 解 为 小 任务 ， 并 且 自 动 化 其 中 的 几 
个 。 或 许 你 的 任务 包括 一 个 报告 ， 需 要 下 载 两 个 数据 集 ， 进 行 清 洗 和 分 析 ， 
然后 根据 输出 的 不 同 ， 发 送 结果 到 不 同 的 群 组 。 你 可 以 分 解 这 项 任务 为 一 些 
子 任务 ， 自 动 化 每 一 个 步骤 。 如 果 其 中 任何 一 个 子 任务 失败 了 ， 停 止 执行 下 
面 的 任务 ， 警 报 负责 维护 脚本 的 人 员 ， 这 样 可 以 研究 它 ， 并 且 在 bug 或 问题 
解决 后 重新 执行 。 


























所 以 ， 自 动 化 的 基本 步 又 如 下 (注意 ， 根 据 任务 类 型 的 不 同 ， 步 又 会 有 变化 ) 。 


(1) 定义 你 的 问题 集合 ， 将 其 分 解 为 更 小 的 工作 块 。 

(2) 精确 地 描述 每 一 个 子 任务 的 输入 是 什么 、 输 入 做 什么 以 及 需要 什么 来 确认 任务 完成 。 
(3) 确定 哪里 可 以 得 到 输入 ， 以 及 何 时 运行 任务 。 

(4) 开始 编码 你 的 任务 ， 用 真实 或 样 例 数据 测试 。 

(5) 整理 你 的 任务 和 脚本 ， 添 加 文档 。 
(6) 添 加 日 志 ， 聚 焦 于 调试 错误 和 记录 成 功 的 任务 。 

(7) 提交 你 的 代码 到 仓库 中 ， 手 动 测试 它 。 按 照 需 要 做 出 修改 。 

(8) 通过 将 手动 任务 禁 换 为 自动 化 任务 ， 为 自动 化 准备 好 脚本 。 

(9) 在 任务 开始 自动 化 后 ， 关 注 日 志和 警报 。 修 正 所 有 的 错误 和 bug。 更 新 你 的 测试 和 文档 。 
(10) 为 日 志 中 的 错误 检查 频率 制订 一 个 长 期 计划 。 

自动 化 的 第 一 个 步骤 永远 是 更 好 地 定义 你 的 任务 和 子 任务 ， 让 它们 足够 小 ， 这 样 可 以 轻易 
地 完成 它们 ， 且 它们 的 失败 或 成 功 是 确定 的 。 

后 面 的 几 个 步骤 同 我 们 在 全 书 中 使 用 的 处 理 过 程 类 似 。 你 应 该 确定 怎样 开始 用 Python 解 
决 问 题 。 搜 索 库 或 者 工具 ， 帮 助 你 修复 问题 或 完成 请 求 ， 然 后 开始 编码 。 一 旦 脚本 开始 工 
作 ， 你 会 想 要 使 用 一 些 不 同 的 可 用 数据 集 或 输入 测试 它 。 在 成 功 的 测试 之 后 ， 简 化 和 文档 
化 它 。 将 其 上 传 到 一 个 远程 仓库 (Bitbucket 或 GitHub) 中 ， 这 样 随 着 时 间 的 推移 你 可 以 记 
录 修 改 和 额外 的 信息 。 


一 旦 你 完成 了 脚本 ， 首 先 手动 运行 它 ( 而 不 是 通过 自动 化 的 方式 )。 当 新 的 
数据 就 位 ， 或 者 到 了 运行 它 的 时 候 ， 手 动 执 行 ， 持 续 观 察 程序 的 输出 。 可 能 
会 有 隐藏 的 错误 存在 ， 也 可 能 你 需要 添加 额外 的 日 志和 调试 信息 。 






















































































根据 满足 需求 的 自动 化 类 型 ， 你 可 能 创建 了 一 个 简单 的 定时 任务 ， 脚 本 按 特 定 的 时 间 间 隔 
执行 〈 本 章 后 文 会 介绍 关于 定时 任务 的 知识 )。 你 可 能 需要 稍微 修改 脚本 ， 让 它 可 以 通过 
使 用 参数 变量 、 数 据 库 或 者 系统 上 特定 的 文件 自主 运行 。 当 它 运行 时 ， 你 可 能 会 添加 它 到 
任务 队列 来 管理 它 。 无 论 哪 一 种 自动 化 合适 ， 你 的 工作 都 还 没有 结束 。 

当 你 的 脚本 第 一 次 自动 化 时 ， 在 它 每 次 运行 时 花 时 间 来 检查 它 是 很 必要 的 。 
查看 日 志 并 监控 进程 。 你 可 能 会 找到 小 bug， 然 后 修改 它们 。 再 一 次 更 新 所 
有 必要 的 日 志和 文档 。 
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在 大 约 经 过 了 5 次 成 功 或 日 志 记录 下 来 的 失败 后 ， 你 可 以 减少 人 工 检查 的 次 数 。 然 而 ， 
在 每 月 或 者 每 季度 使 用 grep (http://www.thegeekstuff.com/2009/03/15-practical-unix-grep- 
command-examples/) 查看 日 志 ， 看 一 下 发 生 了 什么 ,仍然 是 一 个 很 好 的 主意 。 如 果 你 正在 
使 用 一 个 日 志 聚 合 器 ， 你 完全 可 以 自动 化 这 一 步骤 ， 并 且 让 这 一 任务 发 送 错误 和 警报 报告 。 
自动 化 不 是 小 进程 ， 但 是 早早 投入 时 间 和 精力 是 值得 的 。 一 个 运行 良好 的 自动 化 任务 集合 
需要 一 些 时 间 来 完成 ,但 是 结果 通常 比 那 些 需要 从 始 至 终 关 注 、 修 改 和 监控 的 一 次 性 脚本 
要 好 。 密 切 关注 并 花 一 些 时 间 正 确 地 自动 化 你 的 脚本 。 之 后 才 真 正 投入 到 手头 接 下 来 的 工 
作 当 中 ， 而 不 是 一 直 将 你 的 一 部 分 工作 与 监控 和 管理 难以 驾驭 的 任务 相关 联 。 


14.3 ”什么 会 出 错 


在 你 的 自动 化 程序 中 ， 有 很 多 事情 可 能 会 出 问题 。 其 中 一 些 非 常 容易 更 正和 人 解释， 然而 其 
他 问题 更 加 模糊 ， 可 能 根本 不 会 有 一 个 真正 的 修正 。 自 动 化 中 的 重要 一 课 是 搞 清楚 哪些 类 
型 的 错误 和 问题 值得 花 时 间 和 精力 修复 ， 哪 些 问 题 最 好 使 用 另外 的 方式 解决 。 

以 在 第 12 章 讨论 过 的 错误 类 型 为 例 : 网 络 仆 取 中 的 网 络 错误 。 如 果 碰 到 了 重大 网 络 错误 ， 
你 只 有 几 个 好 的 选择 。 你 可 以 改变 运行 任务 的 机 器 ， 看 是 否 会 有 性 能 提升 (这 可 能 会 带 来 
经 济 和 时 间 上 的 花 销 ， 取 决 于 你 的 设置 )。 你 可 以 找到 网 络 提 供 商 ， 寻求 支持 。 你 可 以 在 
不 同 的 时 间 运 行 任 务 ， 看 输出 是 否 会 有 不 同 。 你 可 以 预测 问题 的 发 生 ， 依 据 预测 构建 脚本 
( 即 在 需求 之 外 运行 脚本 ， 预 测 失败 百分比 )。 

这 里 有 很 多 通过 自动 化 运行 任务 时 可 能 遇 到 的 错误 ， 

。 数据 库 连 接 错 误导 致 丢失 或 损坏 数据 ， 

。 脚本 漏洞 和 错误 ， 任 务 没 有 正确 完成 ; 

。 来 自 网 站 或 API 的 超时 错误 或 者 过 多 的 请 求 错误 

。 边界 问题 ， 报 告 的 数据 或 一 部 分 没有 保证 一 致 ， 导 致 脚本 错误 ， 

。 服务 器 负载 问题 或 其 他 的 硬件 问题 ; 

。 时 间 不 当 ， 竞 争 条 件 (https://en.wikipedia.org/wiki/Race_condition， 如 果 脚 本 依赖 于 之 
前 其 他 任务 的 完成 ， 竞 争 条 件 能 够 使 数据 无 效 )。 


当然 还 有 很 多 潜在 的 你 无 法 预料 的 问题 。 你 工作 的 团队 越 大 ， 糟 糕 的 文档 、 
糟糕 的 理解 、 糟 糕 的 团队 沟通 伤害 自动 化 程序 的 可 能 性 就 越 大 。 你 无 法 预防 
每 一 个 错误 ， 但 是 可 以 尝试 提供 最 好 的 团队 沟通 和 文档 。 尽 管 如 此 ， 你 同样 
需要 接受 有 些 时 候 自 动 化 程序 会 失败 。 




















































































































为 了 为 最 后 的 失败 准备 ， 你 会 希望 在 问题 发 生 时 收 到 警报 。 你 应 该 确定 多 少 比 例 的 错误 是 
可 接受 的 。 不 是 每 一 种 服务 在 100% 的 时 间 里 都 表现 良好 〈 因 此 存在 状态 页 面 ) ， 然 而 ， 
我 们 可 以 追求 完美 ， 并 确定 自动 化 值得 付出 多 少时 间 和 努力 。 

根据 你 的 自动 化 程序 和 它 的 弱点 ， 这 里 有 一 些 方法 来 应 对 这 些 问题 。 下 面 是 一 些 构建 弹性 
自动 化 系统 的 方式 。 
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。 以 特定 的 时 间 间 隔 重 复 失 败 的 任务 。 

。 确保 你 的 代码 有 很 多 的 try.. .except 代码 块 ， 让 它 能 够 处 理 错误 。 

。 在 处 理 到 机 器 、 数 据 库 或 API 的 连接 的 代码 周围 ， 构 建 特殊 的 异常 代码 块 。 

。 定期 维护 和 监控 你 为 自动 化 使 用 的 机 器 。 

。 使 用 测试 数据 定期 测试 你 的 任务 和 自动 化 程序 ， 确 保 它们 正常 执行 。 

。 注意 脚本 中 出 现 的 依赖 、 竞 争 条 件 和 API 规则 ， 根 据 这 些 知识 编写 代码 。 

。 使 用 类 似 requests 和 multiprocessing 的 库 ， 让 困难 的 问题 变 得 更 简单 ， 并 尝试 理解 使 
脚本 运行 困难 的 问题 所 在 。 


我 们 会 使 用 这 其 中 的 一 些 技术 和 想法 ， 研 究 如 何 最 好 地 监控 和 自动 化 脚本 。 现 在 ， 让 我 们 
讨论 一 下 自动 化 中 使 用 的 工具 ， 使 数据 处 理 更 加 容易 和 简单 ， 并 给 出 一 些 在 哪里 以 及 如 何 
使 用 这 些 工具 的 建议 。 


14.4 ”在 哪里 自动 化 


根据 脚本 需求 的 不 同 ， 决 定 在 哪里 运行 它 是 重要 的 第 一 步 。 无 论 脚 本 在 哪里 第 一 次 执行 ， 
你 都 可 以 将 它 移 到 别 的 地 方 ， 但 是 这 可 能 需要 重 写 一 些 代 码 。 在 一 开始 ， 你 可 能 需要 它 在 
本 地 运行 。 在 本 地 运行 脚本 或 任务 就 是 在 你 自己 的 计算 机 上 运行 。 

远程 执行 意味 着 在 另外 的 机 器 上 运行 ， 可 能 是 其 他 地 方 的 服务 器 。 一 旦 脚本 运行 成 功 并 且 
测试 良好 ， 你 会 想 要 移动 它 到 远程 。 如 果 你 管理 或 拥有 服务 器 ， 或 者 为 一 个 有 服务 器 的 组 
织 工 作 ， 这 样 迁 移 脚 本 到 服务 器 上 会 相对 简单 。 这 允许 你 在 自己 的 机 器 〈 笔 记 本 电脑 或 台 
式 计算 机 ) 上 工作 ， 并 且 不 用 担心 在 什么 时 间 关 闭 和 打开 它 。 在 远程 运行 脚本 也 意味 着 对 
你 的 网 络 服务 提供 商 来 说 ， 你 不 是 独立 的 。 
如 果 无 法 访问 服务 器 ， 但 是 有 一 台 旧 的 不 再 使 用 的 计算 机 或 笔记 本 电脑 ， 在 必要 的 情况 
下 ， 你 可 以 将 其 变 成 服务 器 。 如 果 它 运行 着 老 旧 的 操作 系统 ， 你 可 以 将 它 升级 ， 以 便 在 其 
上 运行 Python， 或 者 可 以 彻底 重 来 ， 安 装 Linux。 


使 用 家 庭 计算 机 作为 远程 设备 意味 着 它 需要 总 是 运行 着 ， 并 且 连 接 到 你 的 家 
庭 互 联网 中 。 如 果 你 还 想 安 装 一 个 之 前 没有 使 用 过 的 操作 系统 ， 像 Linux， 
这 是 一 个 学 习 新 操作 系统 的 简单 方式 ， 并 且 可 以 帮助 你 过 渡 到 管理 自己 的 
服务 器 。 如 果 你 刚刚 开始 使 用 Linux， 建 议 选 择 一 个 流行 的 分 发 版 本 ， 例 如 
Ubuntu (http:/www.makeuseof.com/tag/ubuntu-an-absolute-beginners-guide/) 
或 LinuxMint (http:Wlinuxmint.comy) 。 










































































































































































如 果 你 想 要 管理 自己 的 服务 器 ， 但 是 刚 起 步 ， 不 用 惊慌 ! 即使 你 没有 管理 过 或 帮助 他 人 管 
理 过 服务 器 ， 云 服务 提供 商 之 间 日 益 激 烈 的 竞 和 邹 ， 让 服务 器 管理 越 来 越 容 易 。 云 服务 提 
供 商 让 你 不 需要 了 解 大多 的 技术 知识 ， 便 可 以 使 用 新 机 器 ， 运 行 自己 的 服务 器 。 服 务 商 
DigitalOcean 有 很 多 关于 开始 使 用 云 服 务 的 很 棒 的 文章 ， 包 括 如 何 创建 第 一 台 服 务 器 (https:// 


www.digitalocean.com/community/tutorials/how-to-create-your-first-digitalocean-droplet-virtual- 

















server) 和 运行 服务 器 (https://www.digitalocean.com/help/getting-started/setting-up-your-server/) 。 


无 论 在 本 地 还 是 远程 运行 脚本 ， 都 有 大 量 的 工具 可 以 用 来 很 好 地 监测 和 更 新 计算 机 或 服务 
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器 。 你 希望 能 够 非常 简单 地 管理 和 更 新 脚本 和 任务 ， 并 且 可 以 定期 运行 脚本 以 完成 任务 。 
最 后 ， 你 还 希望 可 以 轻松 地 配置 和 文档 化 它们 。 在 下 面 的 几 节 中 ， 我 们 会 介绍 所 有 这 些 主 
题 ， 从 可 以 让 你 的 脚本 更 加 自动 友好 的 Python 工具 开始 。 


14.5 ”自动 化 的 特殊 工具 


Python 提供 了 许多 用 于 自动 化 的 特殊 工具 。 我 们 会 查看 一 些 使 用 Python 管理 自动 化 程序 
的 方法 ， 同 时 也 会 使 用 其 他 的 机 器 和 服务 器 完成 任务 。 我 们 还 会 讨论 怎样 使 用 一 些 内 置 的 
Python 工具 管理 脚本 的 输入 ， 自 动 化 看 起 来 需要 人 工 输入 的 事情 。 


14.5.1 使 用 本 地 文件 、 参 数 及 配置 文件 


根据 脚本 的 工作 情况 ， 你 可 能 需要 存储 在 数据 库 或 API 之 外 的 参数 或 输入 。 当 有 一 个 简单 
的 输入 或 输出 时 ， 你 可 以 使 用 本 地 文件 和 参数 来 传递 数据 。 

1. 本 地 文件 

使 用 本 地 文件 作为 输入 和 输出 时 ， 你 需要 确保 脚本 可 以 每 天 运行 在 相同 的 机 器 上 ， 或 者 可 
以 简单 地 与 输入 和 输出 文件 一 起 迁移 。 随 着 脚本 的 开发 ， 很 可 能 需要 同时 移动 并 改变 脚本 
和 所 用 文件 。 
我 们 之 前 使 用 过 本 地 文件 ， 但 是 让 我 们 看 一 下 如 何 从 更 加 函数 式 的 代码 的 角度 来 使 用 它 。 
这 段 代码 给 了 你 使 用 标准 数据 类 型 打开 和 写 文件 的 能 力 ， 并 且 根 据 脚 本 的 需求 ， 其 复 用 性 
和 扩展 性 很 好 。 


from csv import reader, writer 













































































def read_local file(file_name): 
if '.csv' in file nanme: © 
rdr = reader(open(file name, 'rb')) 
return rdr 
return open(file name, 'rb') © 


def write local file(file_ name, data): 
with open(file_name, 'wb') as open file: © 
if type(data) is list: @ 
wr = writer(open_file) 
for line in data: 
wr .writerow(line) 
else: 
open_file.write(data) @ 


@ 这 行 代码 测试 文件 是 否 适合 使 用 csv 模块 打开 。 如 果 文 件 以 .csv 结尾 ， 之 后 可 以 使 用 
CSYV 读 取 器 来 打开 它 。 

@ 如 果 没 有 返回 CSV 读 取 器 ， 这 段 代 码 返 回 打开 的 文件 。 如 果 想 要 根据 文件 扩展 类 型 ， 
构建 一 系列 不 同 的 方式 来 打开 并 解析 文件 ， 也 可 以 做 到 (例如 ， 为 JSON 文件 使 用 json 
模块 ， 或 者 为 PDF 文件 使 用 pdfminer ) 。 
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和 @ 这 段 代码 使 用 with...as 返回 open 函数 的 输出 ， 将 其 赋值 给 open_file 变量 。 当 缩 进 的 
代码 块 结束 时 ，Python 会 自动 地 关闭 文件 。 

@ 如 果 正 在 处 理 列表 ， 这 一 行 代 码 使 用 CSV 输出 器 输出 每 一 行列 表 对 和 象 为 一 行 数据 。 如 
果 有 字典 ， 可 以 使 用 DictWriter 类 。 

@ 我 们 想 要 一 个 好 的 备 选 计划 ， 以 防 数据 不 是 列表 。 因 此 ， 要 将 原始 数据 写 到 文件 中 。 此 
外 ， 根 据 数据 类 型 的 不 同 ， 还 可 以 写 不 同 的 代码 。 

看 一 个 例子 ， 我 们 需要 文件 夹 中 最 近 使 用 的 文件 ， 这 在 按照 日 期 解析 日 志文 件 ， 或 者 查看 

最 近 的 网 络 疏 虫 运行 结果 时 很 有 用 处 。 


import os 



































def get_ latest(folder): 
files = [os.path.join(folder, f) for f in os.listdir(folder)] ©@ 
files.sort(key=lambda x: os.path.getmtime(x), reverse=True) ©@ 
return files[0] © 


@ 使 用 Python 内 置 的 os 模块 列 出 每 一 个 文件 (listdir 方法 )， 之 后 使 用 path 模块 的 
join 方法 创建 一 个 长 字符 串 ， 表 示 一 个 完整 的 文件 路 径 。 这 是 获取 文件 夹 中 所 有 文 伯 
的 一 种 简单 方式 ， 只 需要 传递 一 个 字符 串 (文件 夹 路 径 )。 

@ 通过 最 后 修改 时 间 来 为 文件 排序 。 因 为 files 是 一 个 列表 ， 所 以 我 们 可 以 调用 sort 方 
法 ， 并 且 给 它 一 个 键 作为 排序 的 依据 。 这 段 代 码 传 递 完整 的 文件 路 径 给 getmtime 图 
数 ， 这 是 os 模块 “获取 修改 时 间 ” 的 方法 。reverse 参数 确保 最 近 的 文件 出 现在 列表 
的 顶部 。 

四 返回 最 近 的 文件 。 

这 段 代 码 返回 最 近 使 用 的 文件 夹 ， 但 是 如 有 果 想 要 返回 整个 以 最 近 使 用 文件 开始 的 文件 列 

表 ， 我 们 可 以 直接 修改 代码 ， 不 返回 第 一 个 索引 ， 而 是 返回 整个 列表 或 一 个 切片 。 


os 库 有 很 多 强 有 力 的 工具 来 查找 、 修 改 和 改变 本 地 文件 (或 者 服务 器 的 本 地 
文件 )。 在 Stack Overflow 上 直接 搜索 会 返回 很 多 答案 ， 例 如 如 何 找到 过 去 
7 天 内 唯一 修改 的 文件 ， 或 者 过 去 一 个 月 中 唯一 修改 的 .csv 文件 ， 等 等 。 使 
用 本 地 文件 ， 特 别 是 当 你 需要 的 数据 已 经 存在 时 (或 者 很 容易 使 用 wget 拿 
到 )， 是 一 个 很 棒 的 简化 自动 化 程序 的 方式 。 
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2. 配置 文件 

为 敏感 信息 创建 本 地 配置 文件 是 必需 的 。 正 像 Twelve-Factor 应 用 (http://12factor.net/ 
config) 中 声称 的 那样 ， 在 代码 主干 之 外 保存 配置 (例如 密码 、 登 录 名 、 邮 件 地 址 和 其 他 
的 敏感 信息 ) 是 成 为 一 个 好 的 开发 者 的 一 部 分 。 如 果 你 连接 到 数据 库 ， 发 送 一 封 邮 件 ， 使 
用 API 或 保存 支付 信息 ， 这 些 敏感 数据 应 该 保存 在 一 个 配置 文件 中 。 

通常 情况 下 ， 我 们 在 仓库 内 的 一 个 独立 文件 夹 存储 配置 文件 〈 例 如 ，config/) 。 仓 库 中 的 所 
有 代码 都 会 访问 这 些 文件 ， 但 是 通过 使 用 .gitignore 文件 ( 见 8.4 节 )， 可 以 保持 这 些 配 置 
文件 在 版 本 控制 之 外 。 如 果 有 其 他 开发 者 或 服务 器 需要 这 些 文件 ， 你 需要 手动 复制 它们 。 
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建议 在 仓库 的 README.md 中 使 用 一 个 小 节 ， 介 绍 特殊 配置 文件 的 位 置 以 及 
如 何 处 理 它们 ， 这 样 新 用 户 和 合作 者 知道 向 谁 索 要 合适 的 文件 。 











使 用 文件 夹 而 不 是 文件 允许 你 在 运行 脚本 的 不 同 机 器 或 环境 中 有 不 同 的 配置 。 你 可 能 想 要 
在 测试 环境 中 有 一 个 配置 文件 ， 使 用 测试 的 API key， 并 且 在 生产 环境 使 用 生产 环境 的 配 
置 文件 。 你 可 能 想 要 根据 脚本 使 用 的 机 器 使 用 多 个 数据 库 。 你 可 以 使 用 一 个 .cfg 文件 保存 
这 些 特殊 信息 ， 如 下 。 


# 示例 配置 文件 

[address] © 

name = foo @ 

email = myemail@bar .Com 
postalcode = 10177 

street = Schlangestr. 4 

city = Berlin 

telephone = 015745738292950383 








[auth_Login] 


User = test@mysite.com 
pass = goodpassword 
[db] 


name = my_awesome_db 

user = script_user 

password = 7CH+89053FJKwjker) 
host = my.host.io 


[email] 
User = script.email@gmail .com 
password = 788Fksjelwi& 


@ 每 一 小 节 用 一 对 方 括号 和 放置 于 方 括号 中 间 的 一 个 容易 阅读 的 字符 串 表 示 。 

加 每 一 行 包含 一 个 key = value 的 序 对 。ConfigParser 将 这 些 序 对 作为 字符 串 解释 。 值 可 
以 包含 任何 的 字符 ， 包 括 特 殊 字 符 ， 但 是 键 必需 遵循 PEP-8 易于 阅读 的 语法 和 结构 。 
在 配置 中 有 小 节 、 键 和 值 ， 这 允许 我 们 使 用 小 节 的 名 字 和 键 访 问 配 置 的 值 。 这 增加 了 
Python 脚本 的 清晰 度 ， 而 不 会 变 得 星 汲 。 一 旦 你 有 了 一 个 类 似 前 面 示例 中 创建 的 配置 文 

件 ， 使 用 Python 解析 以 及 在 脚本 中 使 用 和 自动 化 就 很 简单 了 。 下 面 是 一 个 示例 。 


import Configparser 
from some_api import get_cLient ©@ 






































def get_config(env): 
config = ConfigParser.ConfigParser() 名 


if env == 'PROD': 
return config.read(['config/production.cfg']) © 
elif env == 'TEST': 


return config.read(['config/test.cfg']) 
return config.read(['config/development.cfg']) @ 
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def api_login(): 
config = get_config('PROD' ) 加 
my_client = get_client(config.get('api_ login', 'user'), 
config.get('api_login', 'auth_key')) @ 
return my_client 

@ 这 是 一 个 导入 API 客户 端 钧 子 的 示例 。 

@ 这 段 代 码 通过 调用 ConfigParser 类 初始 化 一 个 配置 对 象 。 现 在 这 是 一 个 空 的 配置 对 象 。 

@@ 这 行 代码 调用 配置 解析 器 对 象 的 read 方法 ， 并 且 传递 一 个 配置 文件 的 列表 给 这 个 国 数 。 
这 里 ， 在 项 目 根 目录 下 名 为 config 的 文件 夹 下 保存 所 有 的 文件 。 

@ 如 果 传 递 的 环境 变量 不 匹配 生产 环境 或 测试 环境 ， 则 永远 返回 开发 配置 。 在 配置 代码 中 
做 类 似 的 判断 是 一 个 很 好 的 做 法 ， 以 防止 定义 环境 变量 失败 的 情况 。 

@ 我 们 假设 示例 需要 生产 环境 的 API， 所 以 这 行 代码 试图 获取 PROD 配置 。 你 同样 可 以 保 
存 这 些 不 同 环境 的 类 型 到 bash 环境 中 ， 并 且 使 用 内 置 的 os.environ 方法 (https://docs. 
python.org/2/library/os.html#process-parameters) 读 取 它们 。 

@ 这 行 代码 调用 小 节 名 称 和 键 名 称 访问 存储 在 配置 中 的 值 。 这 会 将 值 作为 字符 串 返 回 ， 所 
以 如 果 你 需要 整数 或 者 其 他 的 类 型 ， 你 需要 转换 它们 。 

内 置 的 ConfigParser 库 使 我 们 能 够 简单 地 访问 配置 文件 中 存储 的 小 节 、 键 和 值 。 如 果 和 希望 

在 不 同 的 文件 中 存储 不 同 的 信息 ， 并 且 为 每 个 特定 的 脚本 解析 一 个 文件 列表 ， 你 的 代码 应 

该 类 似 这 样 : 

config = ConfigParser.ConfigParser() 

config.read(['config/email.cfg', 'config/database.cfg', 'config/staging.cfg']) 
根据 需求 ， 由 你 组 织 代 码 和 配置 。 访 问 配 置 值 的 语法 很 简单 ， 只 是 使 用 配置 中 小 节 的 名 称 
( 即 [section_name]) 和 键 的 名 称 。 所 以 ， 类 似 下 面 的 配置 文件 : 


[email] 
User = test@mydomain.org 
pass = my_super_password 


可 以 通过 下 面 的 方式 访问 : 


email_addy = config.get('email', 'user') 
email_pass = config.get('email', 'pass') 





























配置 文件 是 一 个 将 所 有 的 敏感 信息 保存 到 一 个 地 方 的 简单 的 工具 。 如 果 你 更 
倾向 于 使 用 .yml 或 其 他 扩展 类 型 的 文件 ，Python 也 有 这 些 文件 类 型 的 读 取 
器 。 确 保 使 用 某 种 手段 将 认证 、 敏 感 信息 同 代 码 分 开 存 储 。 


























3. 命令 行 参数 
Python 让 我 们 能 够 在 自动 化 程序 中 传递 命令 行 参数 。 这 些 参 数 传递 关于 脚本 应 该 如 何 运 行 
的 信息 。 举 个 例子 ， 如 果 需 要 脚本 知道 我 们 希望 它 使 用 开发 配置 运行 ， 可 以 这 样 做 : 


python my_script.py DEV 
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我 们 正在 使 用 相同 的 语法 在 命令 行 中 运行 一 个 文件 ， 调 用 python， 之 后 是 脚本 名 称 ， 然 
后 在 这 一 行 的 最 后 添加 DEV。 怎 样 才能 使 用 Python 解析 额外 的 参数 呢 ? 让 我 们 编写 下 面 
的 代码 : 


from import_config import get_config 
import sys 














def main(env): 
config = get_config(env) 
print config 


if _name _ == '__main__': 


if Len(sys.argv) > 1: © 
env = sys.argv(1) @ 
else: 
env = 'TEST' 
main(env) © 


@ 内 置 的 sys 模块， 帮助 完成 系统 任务 ， 包 括 解析 命令 行 参 数 。 如 果 命 令 行 参数 列表 的 长 
度 大 于 1， 这 里 存在 额外 的 参数 。 第 一 个 参数 永远 保存 着 脚本 的 名 称 (所 以 如 果 参 数 长 
度 为 1， 脚本 名 称 是 唯一 的 参数 ) 。 

名 为 了 得 到 参数 的 值 ， 传 递 参数 的 索引 到 sys 模块 的 argv 方法 。 这 行 代 码 设置 env 为 
参数 的 值 。 记 住 ，argv 方法 的 索引 0 永远 是 Python 的 脚本 名 称 ， 所 以 从 索引 1 开始 
解析 参数 。 

四 这 行 代码 使 用 解析 后 的 参数 ， 根 据 命 令 行 参 数 修改 代码 。 


如 果 想 要 解析 多 个 额外 变量 ， 可 以 测试 参数 的 长 度 ， 来 确保 我 们 有 足够 的 参 
数 ， 之 后 再 继续 解析 。 你 可 以 将 任何 数量 的 参数 组 合 到 一 个 字符 串 中 ， 但 是 
我 们 建议 保持 在 4 个 以 下 。 如 果 你 需要 4 个 以 上 的 参数 ， 考 虑 编写 一 些 逻 辑 
到 脚本 中 (例如 ， 在 星期 二 只 执行 测试 ， 所 以 如 果 今 天 是 星期 二 ， 使 用 测试 
部 分 的 代码 ， 等 等 )。 



























































参数 变量 在 你 需要 重新 使 用 相同 的 代码 执行 不 同 的 任务 或 者 在 不 同 的 环境 下 运行 时 很 有 
用 。 或 许 你 有 一 个 脚本 来 收集 或 分 析 数 据 ， 并 且 和 希望 能 够 切换 使 用 的 环境 。 你 或 许 会 像 下 
面 这 样 运行 脚本 : 

python my_script.py DEV ANALYSIS 

python my_script.py PROD COLLECTION 


或 者 你 可 能 有 一 个 脚本 需要 同 最 近 更 新 的 文件 夹 进行 交互 ， 抓 取 最 新 的 日 志 一 一 比如 从 多 
个 地 方 抓 取 日 志 : 

python my_script.py DEV /var/Log/apache2/ 

python my_script.py PROD /var/Log/nginx/ 
有 了 命令 行 参数 ， 参 数 变量 的 简单 变化 可 以 创建 一 个 可 移植 和 健壮 的 自动 化 程序 。 不 是 每 
一 个 脚本 都 需要 使 用 这 些 额 外 的 变量 ， 但 是 有 这 样 一 个 内 置 到 标准 库 中 的 解决 方案 是 很 棒 
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的 ， 它 同时 提供 了 灵活 性 。 
除了 这 些 相当 简单 直接 的 方式 来 解析 数据 ， 给 脚本 额外 的 信息 ， 你 也 可 以 使 用 更 加 复杂 和 
分 布 式 的 方式 ， 比 如 基于 云 计算 的 数据 和 数据 存储 。 我 们 会 在 下 面 查 看 这 部 分 内 容 。 


14.5.2 ”在 数据 处 理 中 使 用 云 


云 这 个 名 词 通常 用 来 代表 一 个 资源 共享 池 ， 例 如 服务 器 。 
还 网 络 服务 (AWS)， 是 最 著名 的 云 服 务 提 供 商 之 一 。 











亚 马 














云 这 个 词 经 常 被 过 度 使 用 。 如 果 你 正在 云 服务 器 上 运行 代码 ， 最 好 说 “我 正 
在 一 个 服务 器 上 执行 它 ” ， 而 不 是 “我 在 云 上 执行 它 "。 





什么 时 候 适 合 使 用 云 ? 如 果 数 据 太 大 ， 不 能 在 自己 的 计算 机 上 执行 ， 或 者 程序 需要 很 长 的 
时 间 执 行 ， 云 都 是 一 个 很 好 的 处 理 方式 。 将 大 多 数 想 要 自动 化 的 任务 放 到 云 上 执行 ， 这 样 
你 不 用 担心 电脑 打开 或 关闭 时 脚本 是 否 在 运行 。 

如 果 选 择 AWS， 第 一 次 登录 后 会 看 到 许多 不 同 的 服务 选择 。 在 数据 处 理 中 你 只 需要 几 种 
服务 ( 见 表 14-1)。 


表 14-1: AWS 云 服务 























服务 在 数据 处 理 中 的 目的 

简单 存储 服务 (S3) 一 个 简单 的 文件 存储 服务 ， 用 来 备份 数据 文件 (JSON、XML 等 ) 
弹性 计算 (EC2) 一 个 按 需 分 配 的 服务 器 。 这 是 运行 脚本 的 地 方 

弹性 MapReduce (EMR) 通过 一 个 托管 的 Hadoop 框架 提供 分 布 式 的 数据 处 理 进程 











这 些 是 你 需要 熟悉 的 基本 的 AWS 服务 。 还 有 各 种 各 样 的 竞争 者 ， 包 括 IBM 的 Bluemix 和 
沃 特 森 开发 者 云 (让 你 得 以 使 用 各 种 大 型 数据 平台 ， 包 括 沃 特 森 的 逻辑 和 自然 语言 处 理 能 
力 )。 你 还 可 以 使 用 DigitalOcean 或 Rackspace， 它们 提供 了 廉价 的 云 资 源 。 


无 论 使 用 什么 ， 你 都 需要 在 云 服务 器 上 部 署 代码 。 为 此 ， 我 们 建议 使 用 Git (https:/Wgit-scm.com ) 。 


使 用 Git 部 署 Python 
如 果 想 让 自动 化 程序 运行 在 本 地 机 器 之 外 的 地 方 ， 你 需要 部 署 Python 脚本 。 我 们 会 介绍 几 
种 简单 的 方式 ， 然 后 介绍 一 些 稍微 复杂 的 方式 。 


版 本 控制 让 你 的 团队 在 同一 个 仓库 上 并 行 工作 ， 不 会 在 每 个 人 之 间 产 生 问 题 。 
Git 允许 创建 不 同 的 分 支 ， 这 样 你 或 者 团队 中 的 其 他 人 可 以 在 特定 的 需求 集合 
上 工作 ,或 者 各 自 完成 新 的 集成 ， 然 后 将 它们 合并 回 代码 主干 ， 而 不 会 丢失 
任何 核心 功能 。 它 还 能 确保 每 个 人 有 最 新 的 代码 (包括 服务 器 和 远程 机 器 )。 

































































部 署 Python 最 简单 和 直观 的 方式 是 使 用 Git 把 仓库 置 于 版 本 控制 之 下 ， 用 Git 部 署 钩子 将 
代码 移 到 远程 机 器 上 上。 首先 ， 需 要 安装 Git (https://git-scem.com/book/en/v2/Getting-Started- 
Installing-Git) 。 
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如 果 你 是 Git 新 手 ， 建 议 你 参加 GitHub 上 的 Code School 入 门 教程 (https://try.github.io/ 
levels/l/challenges/1) 或 者 浏览 Atlassian 上 的 Git 入 门 教程 (https://www.atlassian.com/git/ 
tutorials/)。 上 和 手 Git 相当 简单 ， 你 会 很 快 掌握 常用 命令 。 如 果 你 独自 在 仓库 上 工作 ,不 用 
过 于 担心 拉 取 远程 变化 的 问题 ， 但 是 设置 一 个 清晰 的 工作 日 程 总 是 好 的 。 
一 旦 Git 安装 完成 ， 在 项 目 代 码 文件 夹 下 运行 下 面 这 些 命令 。 

git init . ©@ 

git add my_script.py © 

git commit -a © 
@ 初始 化 当前 工作 目录 为 Git 仓库 的 根 目 录 。 
名 添加 my_script.py 到 仓库 中 。 使 用 来 自 仓库 的 文件 名 或 文件 夹 名 称 
@ 将 这 些 改变 连同 任何 其 他 运行 改变 〈-a) 提交 到 仓库 。 
收 到 提示 后 ， 编 写 一 个 提交 信息 ， 简 短 地 解释 你 做 出 的 改变 ， 这 段 解释 应 该 明确 并 且 清 
上 晰 。 你 可 能 在 之 后 需要 找到 哪个 提交 对 应 代码 中 的 哪个 改变 。 如 果 信 息 始 终 编写 得 很 清 
上 晰 ， 这 会 帮助 你 搜索 和 找到 这 些 提交 。 这 同样 会 帮助 团队 中 的 其 他 人 或 者 合作 者 理解 你 的 
代码 和 提交 。 























不 是 配置 文件 ! 













































































习惯 于 使 用 git fetch 拉 取 远程 变化 ， 或 使 用 git pull --rebase 命令 通过 
新 的 提交 更 新 本 地 仓库 。 之 后 ， 在 代码 上 工作 ， 提 交工 作 ， 推 送 提交 到 活跃 
的 分 支 。 当 适合 合并 分 支 到 主干 时 ， 你 可 以 发 送 一 个 拉 取 请 求 (https://help. 
github.com/articles/using-pull-requests/)， 让 其 他 人 检查 合并 的 代码 ， 之 后 直 
接合 并 到 主干 。 不 要 忘记 删除 没有 用 处 的 老 的 分 支 。 





























创建 一 个 .gitignore 文件 是 必需 的 ， 在 这 个 文件 中 列 出 所 有 想 让 Git 在 推送 / 拉 取 时 忽略 的 
文件 模式 ， 正 像 在 8.4 市 附注 栏 “Git 和 .gitignore” 中 讨论 的 那样 。 你 可 以 在 每 个 文件 夹 下 
使 用 一 个 文件 ， 也 可 以 只 在 仓库 的 基 目 录 下 使 用 一 个 。 大 多 数 的 Python .gitignore 文件 类 
似 于 这 样 : 

*.pyc 

*.CSV 


* .Log 
config/* 


这 个 文件 会 阻止 仓库 存储 编译 过 的 Python 文件 、CSYV 文件 、 日 志文 件 和 配置 文件 。 根 据 
仓库 文件 夹 中 存在 的 其 他 文件 类 型 ， 你 可 能 想 要 添加 更 多 的 模式 。 

你 可 以 在 一 些 站 点 上 挂 载 仓库 。GitHub (https://github.com/) 提供 了 免费 的 公开 仓库 ， 但 
是 没有 私有 仓库 。 如 果 你 需要 代码 是 私有 的 ，Bitbucket (https://bitbucket.org/) 有 免费 的 
私有 仓库 。 如 果 你 已 经 开始 在 本 地 使 用 Git， 推 送 已 有 的 Git 仓库 到 GitHub (https://help. 
github.com/articles/set-up-git/) 或 Bitbucket (http://bit.ly/create_bitbucket_repo) 是 很 简单 的 。 
一 旦 创建 了 仓库 ， 使 用 Git 设置 远程 端点 (服务 器 或 服务 器 集群 ，http://git-scem.com/docs/ 
git-remote) 很 简单 。 如 果 你 正在 部 署 一 个 使 用 ssh 访问 的 目录 ， 下 面 是 一 个 示例 。 


git remote add deploy ssh://user@342.165.22.33/home/user/my_script 
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在 推送 代码 到 服务 器 之 前 ， 你 需要 以 一 些 命令 设 置 接收 端的 文件 夹 。 在 计划 进行 开发 的 服 
务 器 文件 夹 下 运行 这 些 命令 ; 

vit Tnit 

git config core.worktree ‘pwd. 

git config receive.denycurrentbranch ignore 


这 里 初始 化 了 一 个 空 的 仓库 来 从 本 地 机 器 发 送 代 码 ， 同 时 定义 了 一 些 简单 的 配置 ， 这 样 
Git 知道 它 是 一 个 远程 端点 。 你 还 需要 创建 一 个 推送 一 接收 钓 子 。 通 过 在 刚刚 初始 化 的 文 但 
夹 .git/hooks 下 创建 一 个 名 为 post-receive 的 可 执行 文件 (通过 许可 )， 你 可 以 创建 一 个 钧 
子 。 这 个 文件 会 在 部 署 端点 接收 到 任何 的 Git 推送 后 执行 。 它 应 该 包含 你 需要 在 每 一 次 推 
送 后 执行 的 所 有 任务 ， 例 如 同步 数据 库 、 清 理 缓存 或 者 重启 任何 的 进程 。 至 少 ， 它 会 需要 
更 新 端点 。 


一 个 简单 的 .git/hooks/post-receive 文件 看 起 来 类 似 于 这 样 : 


#!/bin/sh 
git checkout -f 
git reset --hard 


这 会 重 置 所 有 本 地 的 变化 (在 远程 机 器 上 ) 并 且 更 新 代码 。 


你 需要 在 本 地 机 器 上 做 出 所 有 的 修改 ， 测 试 它们 ， 之 后 推送 它们 到 部 署 端 
点 。 从 一 开始 就 使 用 这 种 方式 是 好 的 习惯 。 通 过 这 种 方式 ， 所 有 代码 都 在 版 
本 控制 之 下 ， 你 可 以 确保 没有 由 于 直接 在 服务 器 上 修改 代码 而 导致 的 断 断 续 
续 的 bug 或 错误 。 


证 








WE 



































一 旦 远程 端点 设置 完成 ， 你 可 以 直接 在 本 地 仓库 运行 下 面 的 命令 ， 使 用 所 有 最 新 的 提交 更 
新 服务 器 上 的 代码 : 

git push depLoy master 
这 样 做 是 一 个 非常 棒 的 管理 仓库 和 服务 器 或 远程 机 器 的 方式 ， 很 容易 使 用 和 设置 ， 也 让 迁 
移 (如 果 需 要 的 话 ) 变 得 直观 。 
如 果 你 刚 开 始 接触 部 署 和 版 本 控制 ， 建 议 你 从 Git 开始 ， 熟 悉 它 之 后 再 转 而 使 用 更 复杂 的 
部 署 选择 ， 比 如 Fabric (http:Wwww.fabfile.org/) 。 在 本 章 的 后 面 ， 我 们 会 介绍 一 些 大 规模 
的 自动 化 工具 ， 用 于 在 多 个 服务 器 之 间 部 署 和 管理 代码 。 


14.5.3 ”使 用 并 行 处 理 

并 行 处 理 对 脚本 自动 化 来 说 是 一 个 很 棒 的 工具 ， 让 你 可 以 在 一 个 脚本 中 运行 多 个 并 发 进 
程 。 如 果 脚 本 需要 多 个 进程 ，Python 内 置 的 muLtiprocessing 库 会 成 为 你 自动 化 的 得 力 工 
具 。 如 果 你 有 一 系列 的 任务 需要 并 行 执行 ， 或 者 通过 并 行 化 可 以 加 速 执 行 任务 ， 多 重 处 理 


(multiprocessing) 是 合适 的 工具 。 


如 何 使 用 multiprocessing 呢 ? 下面 是 一 个 简单 的 示例 : 
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from multiprocessing import Process，Manager © 
import requests 


ALL_URLS = ['google.com', 'bing.com', 'yahoo.com', 
'twitter.com', 'facebook.com', 'github.com', 
'python.org', 'myreallyneatsiteyoushouldread.com'] 


def is_up_or_not(url, is_up, lock): @ 
resp = requests.get('http://www.isup.me/%s' % url) © 
if 'is up.' in resp.content: @ 
is_up.append(url) 
else: 
with lock: 日 


def get_procs(is_up, lock): @ 
proes Ss |] 
for url in ALL_URLS: 
procs.append(Process(target=is_yp_or_not, 
args=(url, is_up, lock))) @ 
return procs 


def main(): 

manager = Manager() @ 

is_up = manager.list() © 

lock = manager .Lock() 四 

for p in get_procs(is up, lock): @ 
p.start() 
p.join() 

print is_up 


if __name _ == '__main__ 
main() 


@ 从 内 置 的 multiprocessing 库 导入 Process 和 Manager 类 ， 来 帮助 我 们 管理 进程 。 

@ 定义 主要 worker 函数 is_up_or_not， 培 训 需 要 3 个 参数 : 一 个 URL、 一 个 共享 列表 和 
一 个 共享 锁 。 其 中 的 列表 和 锁 是 在 所 有 的 进程 间 共 享 的 ， 让 其 中 的 每 一 个 进程 能 够 修改 
或 使 用 它们 。 

@ 使 用 requests 检查 isup.me， 判 定 给 定 的 URL 当前 是 否 在 线 并 且 可 用 。 

@ 测试 是 否 可 以 在 页 面 中 找到 文本 “is up.”。 如 果 文 本 存在 ， 这 个 URL 就 是 我 们 想 要 的 。 

加 通过 with 代码 块 调用 锁 的 acquire 方法 。 这 会 得 到 锁 ， 继 续 执行 下 面 缩 进 的 代码 ， 
然后 在 代码 块 的 最 后 释放 锁 。 锁 (http://www.laurentluce.com/posts/python-threads- 
synchronization-locks-rlocks-semaphores-conditions-events-and-queues/) 是 阻塞 的 , 并 且 只 
能 在 代码 中 需要 阻塞 时 使 用 ( 举 个 例子 ， 如 果 你 需要 确保 只 有 一 个 进程 运行 一 组 特殊 的 
逻辑 ， 比 如 检查 一 个 共享 值 是 否 变 化 ， 或 是 否 到 达 了 一 个 终止 点 )。 

@ 当 生 成 进程 时 ,传递 共享 的 锁 和 列表 到 函数 中 使 用 。 
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@ 通过 传递 关键 参数 创建 一 个 进程 对 象 : 目标 ( 即 ， 我 应 该 执行 哪个 函数 ) 和 参数 ( 即 ， 使 
用 什么 参数 )。 这 行 代码 追加 所 有 的 进程 到 一 个 列表 ， 这 样 我 们 可 以 在 一 个 地 方 管理 它们 。 

@ 初始 化 Manager 对 象 ， 这 帮助 我 们 管理 共享 的 对 象 和 进程 间 的 日 志 。 

© 创建 一 个 共享 列表 对 象 ， 跟 踪 每 个 站 点 的 状态 。 每 一 个 进程 都 能 改变 这 个 列表 。 

@ 创建 一 个 共享 的 锁 对 象 ， 如 果 一 个 站 点 中 不 存在 “is up”， 停 止 并 且 宣 布 它 。 如 果 这 些 
是 我 们 管理 的 所 有 站 点 ， 我 们 可 能 有 了 一 块 重要 的 业务 逻辑 来 处 理 紧 急 情 况 ， 也 因此 有 
了 “停止 所 有 程序 ”的 理由 。 

图 分 别 开 始 由 函数 get_proc 返回 的 每 一 个 进程 。 一 旦 它们 开始 执行 ，join 方 法 会 让 
Manager 对 象 和 所 有 的 子 进程 通信 ， 直 到 最 后 一 个 进程 完成 。 

使 用 多 重 处 理 的 时 候 ， 你 通常 会 有 一 个 管理 者 进程 和 一 堆 子 进程 。 你 可 以 传递 参数 给 子 进 

程 ， 可 以 使 用 共享 内 存 和 共享 变量 。 这 使 你 能 够 确定 如 何 利 用 和 架构 multiprocessing。 根 

据 脚本 的 需要 ， 你 或 许 想 要 让 管理 器 运行 脚本 中 一 系列 的 逻辑 ， 同 时 使 用 子 进程 运行 高 延 

述 或 长 时 间 运 行 的 部 分 代码 。 
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共享 锁 对 象 (https://docs.python.org/2/library/threading.html#lock-objects) 
提供 了 同步 执行 多 个 进程 的 能 力 ， 同 时 能 保护 内 部 逻辑 的 特定 区 域 。 有效 
使 用 它们 的 一 个 方式 是 直接 放置 锁 逻 辑 到 with (https://docs.python.org/2/ 
library/threading.html#using-locks-conditions-and-semaphores-in-the-with- 


statement) 语句 中 。 





如 果 不 确定 脚本 是 否 适合 使 用 多 重 处 理 ， 可 以 先 测 试 脚 本 中 的 一 部 分 代码 或 者 一 个 子 任 
务 ， 确 定 你 是 否 能 够 实现 并 行 编程 的 目标 ,或 者 它 是 否 将 逻辑 复杂 化 了 。 有 一 些 任务 使 用 
大 规模 的 自动 化 和 队列 来 处 理会 更 好 ， 我 们 会 在 本 章 的 后 面 讨论 。 


14.5.4 ”使 用 分 布 式 处 理 

除了 并 行 处 理 和 多 重 处 理 ， 还 有 分 布 式 处 理 ， 它 分 发 进程 到 多 台 机 器 上 (不 同 于 发 生 在 一 
台 机 器 上 的 并 行 处 理 )。 当 计算 机 可 以 处 理 时 ， 并 行 处 理 更 快 ， 但 是 有 些 时 候 你 需要 更 强 
大 的 能 





















































分 布 式 处 理 涉及 多 个 类 型 的 计算 问题 。 有 些 工具 和 库 可 以 管理 分 布 在 多 台 计 算 
机 上 的 进程 ,还 有 些 工具 和 库 可 以 管理 跨越 计算 机 的 存储 。 与 这 些 问题 相关 的 
概念 包括 分 布 式 计算 、MapReduce、Hadoop、HDFS、Spark、Pig 和 Hive。 

















在 2008 年 早期 ， 克 林 顿 总 统 图 书馆 和 国家 档案 局 发 布 了 希拉 里 ' 克林顿 在 1993 年 到 2001 年 
作为 第 一 夫人 的 日 程 表 。 这 份 文档 包含 17 000 多 页 的 PDF 图 片 ， 为 了 将 其 转换 为 有 用 的 
数据 集 ， 需 要 进行 光学 字符 识别 ， 或 者 使 用 OCR 技术 。 由 于 正 值 民主 党 总 统 候选 人 初 选 
阶段 ， 新 闻 组 织 想 要 发 布 这 份 数据 。 为 了 完成 这 项 工作 , 《华盛顿 邮 报 》 使 用 了 分 布 式 进 
程 服务 ， 将 17 000 多 张 图 片 转 化 为 文本 。 通 过 分 发 工作 到 100 多 人 台 计算 机 上 ， 他 们 不 到 
24 小 时 就 完成 了 这 项 工作 。 


使 用 类 似 Hadoop 的 框架 的 分 布 式 处 理 包含 两 个 主要 的 步骤 。 第 一 步 是 映射 数据 或 输入 。 
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这 一 进程 像 是 一 个 过 滤器 。 使 用 映射 器 说 “分 离 文 本 文件 中 所 有 的 单词 ”或 者 “分 离 过 去 
一 个 小 时 里 推 文中 包含 特定 标签 的 所 有 用 户 ”。 下 一 步 是 reduce (规约 ) 映射 后 的 数据 为 
可 用 的 形式 。 这 类 似 于 在 第 9 章 使 用 的 聚合 函数 。 如 果 我 们 查看 所 有 来 自 Spritzer feed 的 
Twitter 句柄 ， 可 能 想 要 根据 不 同 的 地 理 信息 或 主题 统计 每 一 个 句柄 的 推 文 数量 ， 或 者 所 有 
句柄 的 聚合 〈 即 ， 所 有 来 自 这 一 时 区 的 使 用 这 些 单词 最 多 的 推 文 ) 。 规 约 部 分 帮助 我 们 处 
理 这 些 大 数据 ,， “规约 ” 它 为 可 阅读 和 可 操作 的 报告 。 


正如 你 可 能 看 到 的 ， 不 是 所 有 的 数据 集 都 需要 map-reduce， 而 且 MapReduce 背后 的 理论 
已 经 在 许多 Python 数据库 中 可 用 。 无 论 怎样 ， 如 果 你 有 一 个 非常 大 的 数据 集 ， 使 用 类 
似 Hadoop 的 MapReduce 工具 会 市 省 大 量 的 计算 时 间 。 如 果 你 需要 一 个 很 棒 的 教程 ， 建 
议 你 阅读 Micheal Noll 写 的 关于 用 Python 编写 Hadoop MapReduce 程序 的 指南 (http:/ 
www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/)， 它 使 用 
一 个 单词 计数 程序 来 探索 Python 和 Hadoop。 还 有 很 棒 的 关于 mrjob (https://pythonhosted. 
org/mrjob/) 的 文档 ， 由 在 Yelp (http:Wwww.yelp.com) 的 开发 者 编写 和 维护 。 如 果 你 想 
要 阅读 更 多 关于 这 个 主题 的 信息 ， 可 以 查看 Kevin Schmidt 和 Christopher Phillips 的 图 书 
Programming Elastic MapReduce (O’Reilly)。 


如 果 数 据 集 很 大 ， 但 是 分 离 存 储 或 是 实时 的 (或 接近 实时 )， 你 可 能 想 要 了 解 一 下 另外 
一 个 Apache 项 目 Spark (http://spark.apache.org/)。Spark 因为 它 的 速度 、 机 器 学 习 
的 使 用 和 处 理 流 的 能 力 获得 了 流行 。 如 果 你 的 任务 处 理 实时 的 流 数据 (来 自 服务 、APTI， 
甚至 是 日 志 )， 那 么 相对 于 Hadoop，Spark 会 是 一 个 更 灵活 的 选择 ， 它 可 以 处 理 相同 的 
MapResuce 计算 结构 。 在 你 需要 使 用 机 器 学 习 或 其 他 需要 生成 数据 并 且 “ 忠 ”给 数据 集群 
的 数据 分 析 时 ，Spark 也 很 有 效 。PySpark (http://spark.apache.org/docs/latest/api/python/) 是 
Spark 的 Python API 库 ， 由 相同 的 开发 者 维护 ， 让 你 能 够 在 Spark 进程 中 编写 Python。 

为 了 开始 使 用 Spark， 建 议 你 阅读 Benjamin Bengfort 的 详细 的 博客 文章 (https://districtdatalabs. 
silvrback.com/getting-started-with-spark-in-python)， 其 内 容 包 括 如 何 安 装 Spark， 同 Jupyter 
notebook 集成 ， 以 及 创建 第 一 个 项 目 。 你 同样 可 以 查看 John Ramey 关于 PySpark 和 Jupyter 
notebook 集成 的 文章 (http://ramhiser.com/2015/02/01/configuring-ipython-notebook-support-for- 
pyspark/) ， 在 你 的 notebook 中 进一步 探索 数据 收集 和 分 析 的 可 能 性 。 


14.6 ”简单 的 自动 化 


在 Python 中 ， 简 单 的 自动 化 很 容易 。 如 果 你 的 代码 不 需要 在 多 台 机 器 上 运行 ， 如 果 你 拥有 
一 台 服 务 器 ， 或 者 你 的 任务 不 是 事件 驱动 的 〈 或 者 可 以 每 天 在 相同 时 间 执行 )， 简 单 的 自 
动 化 会 很 有 效 。 开 发 的 一 个 主要 原则 是 选择 最 清晰 和 简单 的 方法 。 自 动 化 也 是 如 此 ! 如 果 
尔 可 以 轻松 地 使 用 一 个 定时 任务 (corn job) 自动 化 工作 ， 绝 不 要 浪费 时 间 过 度 工程 化 它 ， 
或 者 让 它 变 得 更 加 复杂 。 

在 学 习 简单 自动 化 的 过 程 中 ， 我 们 会 介绍 内 置 的 cron (一 个 基于 Unix 系统 的 任务 管理 器 ) 
和 各 种 Web 接口 ， 让 团队 得 以 轻松 访问 所 编写 的 脚本 。 这 些 代 表 着 简单 的 自动 化 解决 方 
案 ， 不 需要 你 的 直接 干预 。 
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14.6.1 CronJobs 


Cron (http://en.wikipedia.org/wiki/Cron) 是 一 个 基于 Unix 系统 的 任务 调度 工具 ， 用 来 使 用 
服务 器 日 志和 管理 工具 运行 脚本 。Cron 需要 你 确定 任务 执行 的 频率 和 时 间 。 


如 果 你 不 能 轻松 地 为 脚本 确定 一 个 时 间 线 ，cron 可 能 不 是 一 个 好 的 选择 。 另 
外 ， 你 可 以 运行 一 个 规律 的 cron 任务 来 测试 是 否 存在 运行 任务 所 必需 的 条 
件 ， 然 后 使 用 一 个 数据 库 或 本 地 文件 通知 运行 的 时 间 。 在 多 个 定时 任务 的 帮 
助 下 ， 你 可 以 检查 文件 或 数据 库 ， 并 且 执 行 任务 。 









































如 果 你 之 前 从 来 没有 使 用 过 cron 文件 ， 它 们 非常 直观 。 大 多 数 的 任务 可 以 通过 输入 下 硬 
引 令 来 编辑 : 


crontab -e 


i 的 











取决 于 操作 系统 ， 如 果 之 前 从 来 没有 编写 过 cron 文件 ， 你 可 能 会 收 到 提示 ， 
让 你 选择 一 个 编辑 器 。 你 可 以 使 用 默认 的 配置 ， 或 者 根据 其 他 的 偏好 改变 
它 。 


你 会 在 文件 中 看 到 一 些 文档 和 注释 ， 解 释 cron 文件 是 如 何 工作 的 。cron 文件 中 每 一 个 不 以 
# 符号 开头 的 行 ， 都 定义 了 一 个 cron 任务 。 每 一 个 cron 任务 都 需要 下 面 这 个 参数 列表 : 


minute hour day_of_month month day_of_week usercommand 


如 果 脚 本 需要 在 一 天 中 的 每 个 小 时 都 执行 ， 但 是 只 在 工作 日 执行 ， 你 需要 写 类 似 于 下 面 的 
代码 : 


©O** * 1-5 python run_this.py 


这 告诉 cron 在 周一 到 周 五 的 每 个 整 点 开始 执行 脚本 。 有 很 多 好 的 入 门 教程 (https://help. 
ubuntu.com/community/CronHowto) 详细 地 讲解 了 哪些 选项 对 你 可 用 ， 但 是 下 面 有 几 条 
建议 。 

。 总 是 在 所 有 代码 行 前 添加 MAIL_T0=your@email.con 变量 。 通 过 这 各 方式， 如果 有 哪个 脚 
本 失败 了 ，cron 会 给 你 发 送 邮件 ， 报 告 异 常 ， 这 样 你 会 知道 它 不 再 工作 了 。 你 需要 设 
置 笔 记 本 电脑 、 台 式 计 算 机 或 服务 器 来 发 送 邮件 。 根 据 操作 系统 和 互联 网 服务 提供 商 的 
不 同 ， 你 可 能 需要 做 一 些 设置 。 有 一 个 很 好 的 GitHub gist (https:/Wgist.github.comy/kany/ 
c44c077881047ead8faa) 可 以 帮助 Mac 用 户 上 手 ， 还 有 一 篇 来 自 HolaRails 的 有 用 的 面 
向 Ubuntu 用 户 的 文章 (https:Wholarails.wordpress.com/2013/11/17/configure-sendmail-in- 
ubuntu-12-04-and-make-it-fast/) 。 

。 如 果 所 运行 的 服务 当 计算 机 重启 时 需要 重新 启动 ， 使 用 ereboot 特性 。 

。 如 果 必 需 运 行 一 些 路 径 环 境 或 者 其 他 的 命令 来 恰当 地 执行 脚本 ， 你 应 该 在 仓库 中 编写 一 
个 cron.sh 文件 。 将 所 有 必需 的 命令 整理 到 一 个 文件 中 ， 并 且 直 接 运行 这 个 文件 ， 而 不 
是 使 用 一 个 用 && 连接 的 很 长 的 命令 列表 。 
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。 不 要 害怕 去 搜索 答案 。 如 果 你 是 第 一 次 使 用 cron， 并 且 遇 到 了 问题 ， 很 有 可 能 已 经 有 人 
发 布 过 解决 方案 ， 通 过 Google 搜索 就 可 以 解决 问题 。 


为 了 测试 如 何 使 用 cron， 我 们 会 创建 一 个 简单 的 Python 示例。 从 创建 一 个 新 的 名 为 hello_ 
time.py 的 Python 文件 开始 ， 并 且 把 这 些 代码 放 在 文件 里 : 


from datetime import datetime 














print 'Hello, it is now %s.' % datetime.now().strftime('%d-%m-%Y %H:%M:%S') 


下 面 ， 在 相同 文件 夹 下 创建 一 个 简单 的 cron.sh 文件 ， 并 且 在 里 面 编写 下 面 的 bash 命令 : 


export ENV=PROD 
cd /home/your_home/folder_name 
python hello_time.py 


我 们 不 需要 设置 环境 变量 ， 因 为 并 不 经 常 使 用 它 ， 并 且 你 需要 更 新 cd 这 行 代码 ， 让 它 正 
确 地 变 成 代码 所 在 的 文件 夹 〈 这 是 指向 当前 文件 的 路 径 ) 。 无 论 如 何 ， 这 是 一 个 很 好 的 实 
例 ， 展 示 了 如 何 使 用 bash 命令 设置 变量 ， 碍 看 虚拟 环境 变量 ， 复 制 和 移动 文件 或 改变 目录 
到 新 的 文件 夹 ， 然 后 调用 Python 文件 。 从 本 书 的 开始 ， 你 就 在 使 用 bash 了 ， 所 以 即使 你 
仍然 是 初学 者 也 不 要 害怕 。 


最 后 ， 让 我 们 使 用 crontab -e 创建 cron 任务 。 使 用 编辑 器 在 文 挡 下 方 添加 这 些 代 码 : 


MAIL_TO=youremai l@yourdomain.con 
*/5 * * * * bash /home/your_home/folder_name/cron.sh > /var/Log/my_cron.Log 2>&1 


你 需要 使 用 真实 地 址 替换 这 个 示例 中 编造 的 Email 地 址 ， 编 写 到 刚刚 创建 的 cron 文件 的 正 
确 路 径 。 记 住 ，hello_time.py 脚本 应 该 在 相同 的 文件 夹 中 。 在 这 个 例子 里 ， 我 们 还 创建 了 
一 个 cron 使 用 的 日 志文 件 〈/vavlog/my_cron.log)。 最 后 的 语句 2>&1 告诉 cron 将 输出 和 所 
有 错误 打印 到 日 志文 件 中 。 一 旦 退出 编辑 器 ， 并 正确 地 保存 了 cron 文件 ， 你 应 该 会 看 见 一 
个 信息 ， 确 认 新 cron 任务 已 经 安装 。 等 待 几 分 钟 ， 然 后 检查 日 志文 件 。 你 应 该 会 看 到 脚本 
输出 的 信息 。 如 果 没 有 的 话 ， 你 可 以 通过 在 系统 日 志 (通常 为 /var/log/syslog) 中 搜索 ,或 
在 cron 日 志 (通常 为 /var/log/cron) 中 搜索 cron 错误 日 志 信 息 。 为 了 删除 这 个 cron 任务 ， 
再 一 次 编辑 crontab， 删 除 这 行 代码 或 在 这 行 代码 的 开头 添加 #， 将 它 注 释 掉 。 


Cron 是 自动 化 脚本 和 警报 的 非常 简单 的 方式 。 它 是 在 20 世纪 70 年 代 中 期 最 
初 的 Unix 系统 的 开发 中 ， 由 贝尔 实验 室 设 计 的 非常 强大 的 工具 ， 直 到 今日 ， 
仍 被 广泛 地 使 用 。 如 果 可 以 很 简单 地 预测 自动 化 程序 运行 时 间 ， 或 者 只 需要 
几 个 bash 命令 就 可 以 运行 ，cron 是 一 个 自动 化 代码 的 有 效 方 式 。 













































































如 果 你 需要 为 cron 任务 传递 命令 行 参 数 ( 见 14.5.1 节 )， 那 么 文件 中 的 代码 可 能 类 似 下 面 
这 样 。 

*/20 10-22 * * * python my_arg_code.py arg1 arg2 ar93 

0,30 10-22 * * * python my_arg_code.py arg4 ar9g5 arg6 


Cron 是 一 个 相当 灵活 也 很 简单 的 工具 。 如 果 它 符合 你 的 需要 ， 那 很 棒 ! 如 果 不 符合 ， 继 续 
阅读 来 学 习 自 动 化 数据 处 理 的 其 他 简单 方式 。 
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14.6.2 Web 接口 


如 果 你 需要 脚本 、 扑 虫 或 者 报告 任务 按 需 执行 ， 一 个 简单 的 解决 方案 是 直接 构建 一 个 Web 
接口 ， 人 们 可 以 登录 进去 并 点 击 按钮 执行 任务 。Python 有 很 多 不 同 的 网 络 框架 供 你 选择 ， 
所 以 使 用 哪 一 个 框架 以 及 花费 多 少时 间 在 Web 接口 上 完全 取决 于 你 。 

一 个 简单 的 方式 是 使 用 Flask-Admin (https://flask-admin.readthedocs.org/en/v1.0.9/) ， 这 是 一 
个 基于 Flask 网 络 框架 (http://flask.pocoo.org/) 构建 的 管理 站 点 。Flask 是 一 个 微 框架 ,这 
意味 着 它 并 不 需要 太 多 的 代码 上 手 。 在 依照 快速 开始 指引 (http://flask.pocoo.org/docs/0.10/ 
quickstart/) 创建 并 运行 了 网 站 后 ， 你 只 需要 在 Flask 应 用 程序 中 创建 一 个 视图 来 执行 任务 。 


确保 任务 可 以 在 完成 时 用 其 他 的 方式 通知 用 户 或 你 邮件、 通知 等 )， 因 为 
它 不 太 可 能 及 时 地 完成 并 给 出 一 个 合适 的 Web 响应 。 同 样 确保 在 任务 开始 
时 通知 用 户 ， 这 样 他 们 不 会 发 出 一 连 串 的 让 任务 开始 运行 的 请 求 。 
























































另外 一 个 流行 并 且 经 党 使 用 的 Python 框架 是 Bottle (http://bottlepy.org/docs/dev/index. 
html) 。Bottle 的 用 法 类 似 于 Flask， 如 果 用 户 点 击 了 按钮 (或 做 了 其 他 简单 的 操作 ) ，Bottle 
用 视图 来 执行 任务 。 

Python 开发 者 使 用 的 一 个 大 型 Python 网 络 框架 是 Django (https:/www.djangoproject. 
com/)。Django 最 初 被 开发 用 来 使 新 闻 编 辑 室 可 以 更 简单 地 发 布 内 容 ， 它 拥有 一 个 内 置 的 
认证 和 数据 库 系统 ， 并 使 用 配置 文件 配置 大 多 数 的 特性 。 

无 论 你 使 用 什么 框架 ， 或 者 如 何 创 建 视图 ， 你 会 想 要 在 一 些 地 方 挂 载 框架 ， 这 样 其 他 人 可 
以 请 求 任务 。 你 可 以 使 用 DigitalOcean 或 者 亚马逊 网 络 服务 (查看 附录 G) 轻松 挂 载 自己 
的 站 点 。 你 同样 可 以 使 用 支持 Python 环境 的 服务 提供 商 ， 比 如 Heroku (https://www.heroku. 
com/)。 如 果 你 对 这 些 选 择 感 兴趣 ，Kenneth Reitz 非常 出 色 地 介绍 了 如 何 使 用 Heroku 部 署 
Python 应 用 (https://devcenter.heroku.com/articles/getting-started-with-python#introduction ) 。 
































无 论 使 用 什么 框架 或 微 框 架 ， 你 都 需要 考虑 认证 和 安全 问题 。 无 论 使 用 什么 
Web 服务 器 ， 你 都 可 以 在 服务 器 端 创建 它 ， 或 者 探索 框架 给 你 的 一 些 选择 
(包括 插件 或 者 其 他 支持 的 特性 ) 。 




















14.6.3 Jupyter notebook 


第 10 章 介 绍 了 如 何 创 建 Japyter notebook， 它 是 另外 一 种 分 享 代码 的 好 方式 ， 特 别 是 对 于 
那些 不 需要 了 解 Python， 但 是 需要 查看 图 表 或 者 其 他 脚本 输出 的 人 来 说 。 如 果 你 教 他 们 如 
何 使 用 简单 的 命令 ， 例 如 运行 notebook 中 所 有 的 单元 ， 并 在 下 载 新 的 报告 后 终止 notebook 
服务 ， 你 会 发 现 它 会 节省 大 量 的 时 间 。 











添加 Markdown 单元 来 解释 如 何 使 用 你 的 共享 notebook 是 一 种 很 好 的 方式 ， 
可 以 确保 所 有 人 明白 如 何 使 用 代码 ， 并 且 可 以 更 容易 地 继续 前 进 ， 而 不 需要 
你 的 帮助 。 
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如 果 你 的 脚本 功能 组 织 得 很 好 ， 不 需要 做 什么 修改 ， 直 接 将 仓库 放 到 Jupyter notebook 可 以 
导入 和 使 用 代码 的 地 方 (设置 的 服务 器 或 者 notebook 的 PYTHONPATH (http://stackoverflow. 
com/questions/3402168/permanently-add-a-directory-to-pythonpath) 是 个 好 主意 ， 这 样 你 正在 
使 用 的 模块 总 是 可 用 的 )。 通 过 这 种 方式 ， 你 可 以 导入 那些 main 函数 到 notebook 中 ， 在 有 
人 点 击 notebook 的 “运行 所 有 ”按钮 时 ， 所 有 的 脚本 会 运行 并 且 生 成 报告 。 


14.7 大 规模 自动 化 


如 果 系 统 需要 多 台 机 器 或 者 服务 器 来 处 理 ， 或 者 报告 是 关于 一 个 分 布 式 系 统 或 者 其 他 事件 
驱动 系统 的 ， 很 可 能 你 会 需要 比 Web 接口 、notebook 和 corn 更 加 健壮 的 工具 。 如 果 你 需 
要 一 个 真正 的 任务 管理 系统 并 且 想 要 使 用 Python， 你 很 幸运 。 在 这 一 节 中 ， 我 们 会 介绍 一 
个 健壮 的 任务 管理 工具 ，Celery (http:/www.celeryproject.org)， 它 能 处 理 大量 的 任务 ， 自 
动 化 worker (你 会 在 下 一 节 学 习 worker 相关 的 知识 ) ， 并 且 提 供 监 控 解 决 方案 。 


我 们 还 会 介绍 操作 自动 化 。 如 果 你 管理 着 一 系列 的 服务 器 或 不 同 需求 的 环境 ， 这 会 很 有 帮 
助 。Ansible (http://www.ansible.com) 是 一 个 非常 棒 的 自动 化 工具 ， 能 够 帮助 完成 各 种 任 
务 ， 从 数据 库 迁 移 到 大 规模 集成 部 署 。 


还 有 一 些 Celery 的 替代 方案 ， 例 如 Spotify 的 Luigi (https://github.com/spotify/luigi)。 如 果 你 
正在 使 用 Hadoop， 并 且 有 大 规模 任务 管理 的 需要 (特别 是 长 时 间 运 行 的 任务 ， 这 可 能 成 为 
一 个 痛 点 ) ， 它 非常 有 用 。 关 于 操作 自动 化 的 好 的 替代 品 确实 有 很 多 。 如 果 你 只 需要 管理 很 
少 的 服务 器 ， 对 于 只 使 用 Python 的 部 署 ， 一 个 好 的 选择 是 Fabric (http://www .fabfile.org/)。 


对 于 大 规模 的 服务 器 管理 ， 一 个 很 好 的 选择 是 SaltStack (http://saltstack.com/)， 或 同 很 
多 部 署 与 管理 工具 [例如 Chef (https:/www.chef.io/chef/) 或 Puppet (https://puppetlabs. 
com/)] 一 起 使 用 Vagrant (https:Wwww.vagrantup.com/) 。 我 们 选择 重点 介绍 在 这 一 节 中 使 
用 的 一 些 工 具 ， 但 是 它们 不 是 使 用 Python 处 理 大 规模 自动 化 程序 的 唯一 选择 。 考 虑 到 领 
域 的 声望 和 必要 性 ， 我 们 建议 在 你 最 喜欢 的 科技 论坛 上 参与 大 规模 自动 化 的 讨论 ， 例 如 


Hacker News (https://news.ycombinator.com/) 。 


14.7.1 Celery: 基于 队列 的 自动 化 


Celery (http://www.celeryproject.org/) 是 一 个 用 来 创建 分 布 式 队列 系统 的 Python 库 。 有 了 
Celery， 可 以 通过 调度 器 或 者 通过 时 间 和 消息 来 管理 任务 。 如 果 你 正在 寻找 能 够 处 理 长 时 
间 运 行 的 时 间 驱 动 的 任务 的 、 可 扩展 的 工具 ，Celery 是 一 个 很 完整 的 解决 方案 。Celery 很 
好 地 集成 了 儿 个 不 同 的 队列 。 它 使 用 设置 文件 、 用 户 接 口 和 API 调用 来 管理 任务 。 它 非常 
容易 上 手 ， 所 以 如 果 这 是 你 第 一 次 使 用 任务 管理 系统 的 话 ， 没 有 必要 害怕 。 
无 论 你 如 何 创建 Celery 项 目 ， 都 很 可 能 包含 下 面 的 任务 管理 系统 组 件 。 
。 消息 中 间 件 〈 例 如 RabbitMQ ，https:Wwww.rabbitmq.comy) 

消息 中 间 件 类 似 于 一 个 等 待 处 理 的 任务 的 队列 。 
。 任务 管理 器 / 队列 管理 器 (Celery) 

这 个 服务 会 跟踪 一 些 逻 辑 ， 这 些 逻 辑 控 制 着 使 用 多 少 worker、 什 么 任务 有 优先 权 、 以 
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及 何 时 重 试 ， 等 等 。 
。 worker 

worker 是 通过 Celery 控制 的 Python 进程 ， 执 行 Python 代码 。 它 们 知道 你 让 它们 去 执行 

什么 任务 ， 并 且 尝 试 执行 这 些 Python 代码 到 结束 。 
。 监控 工具 [例如 Flower (http://flower.readthedocs.org/en/latest/)] 

允许 查看 worker 和 队列 ， 对 于 回答 类 似 于 “ 昨 晚 什么 失败 了 ”这 样 的 问题 很 有 用 。 
Celery 有 一 个 很 有 用 的 上 手指 南 (http://docs.celeryproject.org/en/latest/getting-started/first- 
steps-with-celery.html) ， 但 是 我 们 发 现 最 大 的 问题 并 不 是 学 习 如 何 使 用 Celery， 而 是 了 解 什 
么 类 型 的 任务 适合 于 队列 、 什 么 类 型 不 适合 于 队列 。 表 14-2 综述 了 一 些 有 关 基 于 队列 自动 
化 的 问题 和 原则 。 
表 14-2: 队列 还 是 非 队 列 ? 
























































基于 队列 的 任务 管理 需求 不 需要 队列 的 自动 化 需求 

任务 没有 一 个 确定 的 截止 日 期 任务 可 以 并 且 的 确 有 截止 日 期 

不 需要 知道 有 多 少 任务 可 以 轻松 地 量化 需要 完成 什么 任务 
只 是 大 体 上 知道 任务 的 优先 级 清楚 地 知道 任务 的 优先 级 

任务 不 需要 总 按 顺序 发 生 ， 或 者 通常 不 是 有 顺序 的 任务 必需 按 顺序 发 生 

任务 有 时 花费 很 长 的 时 间 ， 有 时 花费 很 短 的 时 间 需要 知道 任务 花费 多 长 时 间 

任务 调用 (或 排队 ) 基于 一 个 事件 或 其 他 的 任务 结束 任务 基于 时 间或 其 他 可 预测 的 事情 
任务 失败 是 可 以 的 ， 可 以 重 试 必须 了 解 每 一 次 任务 的 失败 

有 大 量 的 任务 ， 而 且 很 有 可 能 继续 增长 每 天 只 有 儿 个 任务 








这 些 都 是 一 般 性 的 需求 ， 但 是 它们 指出 了 关于 何 时 选择 任务 队列 和 何 时 最 好 运行 在 一 个 有 
警报 、 监 控 和 日 志 的 调度 器 上 ， 这 两 者 之 间 的 一 些 理念 区 别 。 























任务 的 不 同 部 分 位 于 不 同 的 系统 中 是 设 问 题 的 ， 而 且 你 在 大 公司 会 经 常 看 到 
不 同 的 任务 “ 桶 ”(bucket) 。 也 可 以 同时 测试 基于 队列 的 和 不 基于 队列 的 任 
务 管理 工具 ， 以 确定 哪 一 种 最 适合 你 和 你 的 项 目 。 

















Python 也 有 其 他 的 任务 和 队列 管理 系统 ， 包 括 Python RQ (http://python-rq.org/) 和 PyRes 
(https://github.com/binarydud/pyres)。 这 两 者 都 是 很 新 的 库 ， 因 此 在 解决 问题 方面 ， 可 能 没 
有 足够 的 资源 能 够 通过 Google 搜索 到 ， 但 是 如 果 你 想 要 从 Celery 开始 ， 之 后 转移 到 其 他 
的 选择 上 ， 你 有 了 备 选 项 。 


14.7.2 ”Ansible: 操作 自动 化 


如 果 你 当前 的 规模 需要 Celery 帮助 管理 任务 ， 很 可 能 你 同样 需要 一 些 帮 助 ， 来 管理 其 他 的 
服务 和 操作 。 如 果 项 目 需要 在 一 个 分 布 式 系统 上 维护 ， 你 应 该 开始 组 织 它们 ， 这 样 可 以 轻 
松 地 通过 自动 化 实现 分 布 式 。 


Ansible (http://www.ansible.com/home) 是 一 个 自动 化 项 目 操 作 的 非常 棒 的 系统 。Ansible 提供 
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了 一 系列 的 工具 ， 你 可 以 用 来 迅速 编写 、 部 署 和 管理 代码 。 你 可 以 使 用 Ansible 来 迁移 项 目 ， 
备份 远程 机 器 上 的 数据 。 你 还 可 以 使 用 它 根 据 需 要 来 使 用 安全 补丁 或 新 的 包 更 新 服务 器 。 
Ansible 有 一 个 快速 开始 的 视频 (http://docs.ansible.com/quickstart.html)， 可 用 来 了 解 所 有 
的 基础 知识 ， 但 是 我 们 同样 想 强 调 文档 中 描述 的 几 个 最 有 用 的 特性 : 

。 MySQL 数据 库 管理 (http://docs.ansible.com/mysql_db_module.html) 

。 Digital Ocean 基本 单元 和 键 管理 (http://docs.ansible.com/ansible/list_of_cloud_modules. 


html#digital-ocean) 
。 滚动 升级 和 部 署 指南 (http://docs.ansible.com/guide_rolling_upgrade.html) 
同样 建议 你 查看 Justin Ellingwood 的 关于 Ansible 操作 的 介绍 (https:/www.digitalocean. 
com/community/tutorials/how-to-create-ansible-playbooks-to-automate-system-configuration- 


on-ubuntu) 和 Servers for Hackers 关于 Ansible 的 扩展 介绍 (https://serversforhackers.com/an- 
ansible-tutorial ) 。 
































如 果 你 只 有 一 两 台 服 务 器 ， 或 者 只 部 署 一 两 个 项 目 ，Ansible 很 可 能 太 高 级 或 
过 于 复杂 ， 但 是 随 着 项 目的 成 长 ， 你 需要 一 些 工 具 来 帮助 保持 项 目的 有 效 组 
织 时 ， 它 就 是 一 个 很 好 的 资源 。 如 果 你 对 操作 和 系统 管理 有 兴趣 ， 这 是 一 个 
很 值得 学 习 和 掌握 的 工具 。 




















如 果 你 更 喜欢 把 操作 留 给 你 创建 的 一 个 很 好 的 镜像 上 ， 每 一 次 操作 时 只 需要 重新 启动 ， 大 
量 的 云 服 务 提供 商 允 许 你 这 么 做 ! 对 于 你 的 数据 处 理 需求 来 说 ， 你 并 不 需要 成 为 一 个 操作 
自动 化 专家 。 


14.8 ”监控 目 动 化 程序 


花费 时 间 监 控 自 动 化 程序 是 必需 的 。 如 果 你 不 知道 任务 是 否 完成 了 ， 或 者 不 知道 任务 成 功 
还 是 失败 了 ， 你 最 好 还 是 不 要 运行 它们 了 。 因 此 ， 监 控 你 的 脚本 和 运行 它们 的 机 器 是 过 程 
中 非常 重要 的 一 部 分 。 

举 个 例子 ， 如 果 有 一 个 隐藏 的 bug， 数 据 并 疫 有 被 加 载 ， 而 且 每 天 或 每 周 ， 你 都 在 老 的 数 
据 上 运行 报告 ,这 是 个 非常 可 怕 的 消息 。 在 自动 化 程序 中 ， 失 败 并 不 总 是 很 明显 ， 因 为 脚 
本 可 能 使 用 旧 数 据 或 者 在 存在 错误 和 不 一 致 的 情况 下 继续 运行 。 监 控 是 观察 脚本 成 功 或 者 
失败 ， 即 使 所 有 的 迹象 都 表明 脚本 仍然 在 正常 地 执行 。 


监控 可 以 有 小 的 或 者 大 的 足迹 ， 这 取决 于 任务 的 规模 和 需求 。 如 果 你 会 有 一 
个 大 规模 的 自动 化 程序 ， 跨 越 多 个 服务 器 ， 你 可 能 需要 使 用 一 个 大 型 的 分 布 
式 监 控 系 统 ， 或 者 具有 监控 功能 的 服务 。 然 而 ， 如 果 你 正在 一 个 家 庭 服务 器 
上 运行 任务 ， 可 能 只 需要 使 用 内 置 的 Python 日 志 工 具 。 



































你 可 能 还 想 在 脚本 中 使 用 一 些 警报 和 通知 工具 。 在 Python 中， 上传 、 下 载 、 用 邮件 发 送 ， 
甚至 用 SMS 发 送 结果 都 非常 简单 。 在 这 一 节 ， 我 们 会 介绍 儿 种 不 同 的 日 志 选 择 ， 并 查看 
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发 送 通知 的 方法 。 在 全面 测试 并 识 入 理解 日 常 监控 所 有 潜在 的 错误 之 后 ， 你 可 以 充分 地 自 
动 化 任务 ， 并 通过 警报 管理 错误 。 

















14.8.1 “Python 日 志 


最 基本 的 监控 脚本 的 方式 是 日 志 。 你 很 幸运 ，Python 有 一 个 非常 健壮 并 且 有 丰富 特性 的 日 
志 环 境 ， 它 是 标准 库 的 一 部 分 。 与 你 交互 的 客户 端 或 库 通常 都 拥有 集成 了 Python 日 志 系 统 
的 日 志 工 具 。 

使 用 Python 内 置 的 日 志 模块 中 提供 的 简单 基本 的 配置 ， 可 以 实例 化 日 志 器 ， 并 且 开 始 记 
录 。 之 后 你 可 以 使 用 很 多 不 同 的 配置 选项 ， 来 迎合 脚本 特殊 的 日 志 需 求 。Python 的 日 志 模 
块 允许 你 设置 特定 的 日 志 等 级 (https://docs.python.org/2/library/logging.html#iogging-levels) 
和 日 志 的 记录 属性 (https://docs.python.org/2/library/logging.html#ogrecord-attributes)， 调 
整 日 志 的 格式 。 日 志 器 对 象 同样 拥有 方法 和 属性 (https://docs.python.org/2/library/logging. 
html#logger-objects) ， 根 据 你 的 需要 ， 这 也 会 很 有 用 处 。 


下 面 是 在 代码 中 如 何 创建 并 使 用 日 志 的 实例 。 


import Logging 
from datetime import datetime 









































def start_Logger() : 
logging.basicConfig(filename='/var/log/my_script/daily_report %s.log' % 
datetime.strftime(datetime.now(), '%m%d%Y_%H%M%S'), ©@ 
level=logging.DEBUG, @ 
format='%(asctime)s %(message)s', © 
datefmt='%m-%d %H:%M:%S') @ 


def main(): 
start_logger() 
logging.debug("SCRIPT: I'm starting to do things!") @ 


try: 
20 /0 

except Exception: 
logging.exception('SCRIPT: We had a problem!') @ 
logging.error('SCRIPT: Issue with division in the main() function') @ 


logging.debug('SCRIPT: About to wrap things up!') 


if _ name == '__ main__': 
main() 


@ 使 用 Logging 模块 的 basicConfig 方法 ， 初 始 化 日 志 系 统 ， 这 需要 一 个 日 志文 件 名 
称 。 这 段 代 码 输出 日 志 到 /varvlog 文件 夹 中 的 文件 夹 my_script。 文 件 名 是 daily_ 
report_<DATEINFO>.log， 其 中 <DATEINFO> 是 脚本 开始 执行 的 时 间 ， 包 括 月 、 日 、 
和 年、 小时、 分钟 和 秒 。 这 告诉 我 们 何 时 以 及 为 什么 脚本 开始 运行 ， 同 时 这 是 一 个 好 的 日 








@ 设置 日 志 级 别 。 通 常 ， 你 会 想 要 把 级 别 设置 为 DEBUG6， 这 样 可 以 在 代码 中 留 下 调试 信息 ， 
在 日 志 中 跟踪 它们 。 如 果 想 要 更 多 的 信息 ， 你 可 以 使 用 INF0 级 别 ， 这 会 展示 更 多 的 来 
自 辅 助 库 的 日 志 信息 。 一 些 人 更 喜欢 简略 的 日 志 ， 设 置 日 志 级 别 为 WARNING 或 ERROR。 

@ 使 用 日 志 的 记录 属性 设置 Python 日 志 的 格式 。 这 里 我 们 记录 发 送 给 日 志 的 信息 和 打印 
日 志 的 时 间 。 

@ 设置 一 个 易于 阅读 的 日 期 格式 ， 这 样 很 容易 使 用 我 们 喜欢 的 日 期 格式 解析 或 搜索 日 志 。 
这 里 我 们 记录 了 月 、 日 、 小 时 、 分 钟 和 秒 。 

@ 调用 模块 的 debug 方法 开始 记录 日 志 。 这 个 方法 需要 一 个 字符 串 。 我 们 用 单词 SCRIPT: 
作为 脚本 日 志 实 体 的 前 级 。 在 日 志 中 添加 类 似 这 样 可 搜索 的 标签 ， 会 在 之 后 帮助 你 确定 
哪个 进程 或 库 写 了 这 条 日 志 。 

@ 使 用 logging 模块 的 exception 方法 ， 输 出 你 发 送 的 字符 串 和 Python 异常 的 回 浏 信息 ， 因 
此 只 能 够 在 一 个 异常 代码 块 中 使 用 。 这 在 调试 错误 和 查看 脚本 中 有 多 少 异 常 时 非常 有 用 。 

@ 使 用 级 别 error 打印 一 个 长 一 点 的 错误 信息 。logging 模块 能 够 打印 不 同 级 别 的 错误 信 
息 ， 包 括 debug、error、info 和 warning。 日志 级 别 应 该 与 打印 的 内 容 一 致 ， 为 正常 
信息 使 用 info 或 debug 级别， 用 error 打印 脚本 中 的 错误 和 异常 信息 。 通 过 这 种 方式 ， 
你 永远 知道 去 哪里 找 问 题 ， 以 及 如 何在 检查 中 正确 地 解析 日 志 。 


正 像 在 示例 中 做 的 那样 ， 我 们 发 现 开 始 日 志 信息 时 ， 用 一 个 关于 正在 输出 信息 的 代码 模块 
或 区 域 的 标签 是 很 有 用 处 的 。 这 会 帮助 确定 错误 发 生 在 哪里 。 这 也 使 得 日 志 便于 搜索 和 解 
析 ， 因 为 你 可 以 清晰 地 看 到 脚本 碰 到 了 什么 错误 或 问题 。 学 习 日 志 最 好 的 方式 是 在 第 一 次 
编写 脚本 的 时 候 确 定 在 哪里 放置 信息 ， 并 在 脚本 中 保留 重要 的 信息 ， 以 确定 是 否 发 生 了 问 
题 以 及 在 哪些 节点 发 生 了 问题 。 


即使 已 经 预料 到 了 异常 ， 每 一 个 异常 也 应 该 通过 日 志 记 录 下 来 。 这 会 帮助 你 
跟踪 异常 发 生 的 频率 ， 以 及 你 的 代码 是 否 应 按照 正常 情况 处 理 它们 。1logging 
模块 提供 了 exception 和 error 方法 ， 你 可 以 打印 异常 和 Python 的 回 湖 ， 并 
且 可 以 使 用 error 添加 一 些 额 外 的 信息 ， 详 细 描 述 可 能 发 生 了 什么 ， 以 及 哪 
部 分 代码 触发 了 这 个 错误 。 





















































你 还 应 该 将 同 数据 库 、API 和 外 部 系统 的 交互 通过 日 志 记录 下 来 。 这 会 帮助 你 确定 脚本 与 
它们 的 交互 何 时 出 现 了 问题 ， 确 保 它 们 是 稳定 的 、 可 信赖 的 或 者 可 以 使 用 的 。 你 与 之 交互 
的 许多 库 同样 能 够 根据 配置 打印 日 志 。 例 如 ，requests 模块 会 将 连接 问题 和 请 求 直接 记录 
到 你 的 脚本 日 志 中 。 

即使 不 为 脚本 创建 任何 其 他 的 监控 或 警报 ， 你 也 应 该 使 用 日 志 。 它 很 简单 ， 并 且 为 未 来 的 
你 和 其 他 人 提供 了 优秀 的 文档 。 日 志 并 不 是 唯一 的 解决 方案 ， 但 是 它们 是 一 个 好 的 标准 ， 
并 且 是 自动 化 程序 监控 的 基础 。 

除了 日 志 之 外 ， 你 可 以 为 脚本 设置 易于 分 析 的 警报 。 在 下 一 节 中 ， 我 们 会 介绍 几 种 使 脚本 
能 够 发 送 有 关 成 功 和 失败 信息 的 方式 。 





























自动 化 和 规模 化 | 321 


14.8.2 添加 自动 化 信息 
发 送 报 告 、 跟 踪 脚 本 、 通 知 自己 错误 的 一 





个 简单 方式 是 使 用 邮件 或 者 其 他 直接 从 脚本 发 送 








的 信息 。 有 很 多 Python 库 能 帮助 完成 这 个 任务 。 精 确 地 确定 脚本 和 项 目 中 需要 什么 类 型 的 


信息 是 一 个 好 的 开始 。 
问 问 自己 下 列 选项 是 否 适用 于 你 的 脚本 。 


。 它 会 产生 一 个 报告 ， 并 将 报告 发 送 到 特定 的 收 件 人 列表 。 





。 它 有 一 个 清晰 的 成 功 / 失败 信息 。 
。 它 与 其 他 的 合作 者 或 同事 相关 。 


。 它 提供 了 不 易 在 网 站 或 快速 指示 板 上 查看 的 结果 。 


如 果 这 其 中 的 任何 一 个 听 起 来 像 你 的 项 目 ， 
1. 邮件 





你 的 项 目 很 可 能 适合 某 种 方式 的 信息 自动 化 。 


使 用 Python 处 理 邮 件 非 常 直 观 。 建 议 你 通过 你 最 喜欢 的 邮件 提供 商 〈 我 们 使 用 Gmail) ， 











构建 一 个 独立 的 脚本 的 email 地址。 如 果 


已 没有 立即 自动 同 Python 集成 ， 很 可 能 能 够 通过 





在 网 上 搜索 发 现 合适 的 配置 列表 和 有 用 的 示例 配置 。 


让 我 们 看 一 下 曾 用 来 发 送 带 有 附件 的 邮 介 





F 到 收 件 人 列表 的 脚本 。 我 们 修改 了 @dbieber 编 


写 的 代码 片段 (https://gist.github.com/dbieber/5146518)， 这 上段 代码 修改 自 Rodrigo Coutinho 





的 博文 “使 用 Python 发 送 Gmail 邮件 ” 


via-gmail-with-python.html) : 


#!/usr/bin/python 
# Adapted From 


(http://kutuma.blogspot.jp/2007/08/sending-emails- 


# http://kutunma.blogspot.com/2007/08/sending-emails-via-gmail-with-python.htnml 


# Modified again from: https://gist. 


github.com/dbieber/5146518 


# config file(s) should contain section 'email' and parameters 


# 'user' and "password 


import smtpLib ©@ 


from email.MIMEMultipart import MIMEMultipart @ 


from email.MIMEBase import MIMEBase 
from email.MIMEText import MIMEText 
from email import Encoders 

import os 

import Configparser 


def get_config(env): © 


config = Configparser.Configparser() 


if env == "DEV": 


config.read(['config/development.cfg']) @ 


elif env == "PROD": 


config.read(['config/production.cfg']) 


return config 


def mail(to, subject, text, attach=None, config=None): @ 
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if not config: 


config = get_config("DEV") @ 


msg = MIMEMuTltipart() 


msg['From'] = config.get('email', 'user') @ 
msg['To'] = ", ".join(to) 四 


msg['Subject'] = subject 
msg.attach(MIMEText(text)) 
if attach: © 


part = MIMEBase('application', 'octet-stream') 
part.set_payload(open(attach, 'rb').read()) @ 
Encoders.encode_base64(part) 
part.add_header('Content-Disposition', 

'attachment; filename="%s"' % os.path.basename(attach)) 


msg.attach(part) 


mailServer = smtplib.SMTP("smtp.gmail.com", 587) @ 


mailServer .ehlo() 
mailServer.starttls() 
mailServer .ehlo() 


mailServer.login(config.get('email', 'user'), 
config.get('email', 'password')) 
mailServer.sendmail(config.get('email', 'user'), to, msg.as_string()) 


mailServer.close() 


def example(): 


mail(['listof@mydomain.com', 'emails@mydomain.com'], 
"Automate your life: sending emails", 
"Why'd the elephant sit on the marshmallow?", 
attach="my_file.txt") 四 





@ Python 内 置 的 smtplib 库 (https://docs.python.org/2/library/smtplib.html) 提供 了 一 个 
SMTP 的 封装 ，SMTP 是 发 送 和 接收 邮件 的 标准 协议 。 


@ Python 的 email 库 (https://docs.pyt 
件 ， 并 用 合适 的 形式 保存 它们 。 


hon.org/2/library/email.html) 帮助 创建 邮件 信息 和 附 


@ 函数 get_config 从 一 系列 的 本 地 配置 文件 中 加 载 配置 。 我 们 传递 一 个 环境 变量 ， 环 境 变 
景 可 以 为 字符 串 "PRoD" 或 "DEV"， 来 表明 这 是 在 本 地 运行 ("DEV") 还 是 在 远程 生产 环境 
运行 ("PROD") 的 程序 。 如 果 只 使 用 一 个 环境 ， 你 可 以 简单 地 返回 项 目 中 唯一 的 配置 广 








件 。 








@ 这 行 代码 使 用 Python 的 configparser 读 取 .cfg 文件 ， 返 回 config 对 象 。 
@ 我 们 的 matt 函数 接受 一 个 邮件 地 址 列表 ， 作 为 变量 to、 邮 件 的 主题 和 文本 、 一 个 可 先 


的 附件 和 一 个 可 选 的 config 变量 
ConfigParser 的 实例 。 





。 附 件 需要 是 本 地 文件 的 名 称 。config 对 象 需要 是 





@ 这 行 代 码 设置 了 默认 配置 。 安 全 起 见 ， 我 们 使 用 "DEV" 配置 。 
@ 这 行 代码 使 用 了 ConfigParser 对 象 来 从 配置 文件 中 拉 取 邮件 地 址 。 这 个 变量 安全 地 保存 


地 址 ， 并 与 仓库 代码 分 离 。 
@ 这 段 代码 拆 分 邮件 列表 ， 并 且 用 去 
一 个 字符 串 ， 因 为 这 是 我 们 MIME 











号 和 一 个 空格 分 离 它 们 。 这 会 展开 邮件 地 址 的 列表 为 
需要 的 类 型 。 




















提 如 果 有 附件 的 话 ， 这 行 代码 按照 MIME 分 组 标准 开始 对 附件 做 特殊 处 理 ， 以 发 送 附 件 。 
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@ 这 段 代码 使 用 传人 的 文件 名 字符 串 打 开 并 读 取 完 整 的 文件 。 

国 如 果 你 没有 使 用 Gmail， 设 置 这 些 参数 为 邮件 服务 提供 商 SMTP 的 主机 和 端口 。 如 果 有 
好 的 文档 的 话 ， 很 容易 找到 这 些 参 数 。 如 果 没 有 的 话 ， 直 接 搜索 “SMTP 设置 < 你 的 邮 
件 服务 提供 商 名 称 >” 应 该 会 得 到 答案 。 

四 这 是 一 些 示 例 代 码 ， 提 示 你 mail 函数 所 需 的 参数 。 你 可 以 看 到 需要 的 数据 类 型 (字符 
串 、 列 表 、 文 件 名 ) 和 顺序 。 

简单 的 Python 内 置 库 smtplib 和 email 使 用 它们 的 类 和 方法 帮助 我 们 快速 地 创建 和 发 送 邮 

件 信息 。 将 脚本 中 的 一 些 其 他 部 分 (例如 在 配置 文件 中 保存 邮件 地 址 和 密码 ) 抽象 出 来 是 

保证 脚本 和 仓库 安全 可 复 用 所 必需 的 。 一 些 默认 的 设置 确保 脚本 永远 可 以 发 送 邮 件 。 

2. 短 消息 服务 SMS) 和 语音 

如 果 想 要 集成 电话 信息 到 警报 程序 中 ， 你 可 以 使 用 Python 来 发 送 文 本 信息 ， 或 者 打 电 话 。 

Twilio (https://www.twilio.com) 古 一 个 经 济 有 效 的 选择 ， 支 持 多 媒体 信息 和 自动 拨打 电话 。 


在 开始 使 用 Twilio API 之 前 ， 你 需要 注册 得 到 认证 代码 和 key， 并 且 安 装 
Twilio 的 Python 客户 端 (https://github.com/twilio/twilio-python)。 在 Python 
客户 端的 文档 (https://twilio-python.readthedocs.org/en/latest/) 中 有 一 个 很 长 
的 代码 示例 列表 ， 所 以 如 果 你 需要 做 一 些 有 关 语 音 或 者 文本 的 事情 ， 很 可 能 
这 里 有 一 个 好 的 可 用 的 特性 。 









































看 一 下 发 送 一 个 快速 的 文本 信息 是 多 么 简单 。 


from twilio.rest import TwilioRestClient ©@ 
import ConfigParser 


def send_text(sender, recipient, text message, config=None): 所 
if not config: 
config = ConfigPparser('config/development.cfg') 


client = TwilioRestClient(config.get('twilio', 'account_sid'), 
config.get('twilio', 'auth_token')) © 
sms = client.sms.messages.create(body=text_message, 
to=recipient, 
from =sender) @ 


def example(): 
send_text("+11008675309", "+11088675309", "JENNY!!!!") @ 


@ 我 们 会 使 用 Twilio Python 客户 端 通过 Python 直接 同 Twilio API 交互 。 

@ 这 行 代码 定义 了 一 个 可 以 用 来 发 送 文本 的 函数 。 我 们 需要 发 送 者 和 接收 者 的 电话 号 码 
(以 国家 代码 开头 )， 以 及 想 要 发 送 的 简单 文本 信息 ， 我 们 还 能 传递 一 个 配置 对 象 。 我 们 
会 使 用 配置 来 同 Twilio API 进行 认证 。 

@ 这 段 代 码 创建 了 一 个 客户 端 对 象 ， 它 会 使 用 我 们 的 Twilio 账户 认证 。 当 你 注册 Twilio 
账户 时 ， 会 收 到 一 个 account_sid 和 一 个 auth_token。 将 它们 放 在 脚本 使 用 的 配置 文 从 
中 名 为 twilio 的 小 节 中 。 


证 
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@ 为 了 发 送 一 条 信息 ， 这 段 代 码 使 用 了 客户 端的 SMS 模块 ， 并 且 调 用 了 message 资源 的 
create 方法 。 正 像 Twilio 文档 中 写 的 (https://twilio-python.readthedocs.io/en/latest/usage/ 
messages.html#sending-a-text-message) ， 之 后 可 以 通过 几 个 参数 发 送 一 条 文本 信息 。 

@ Twilio 在 全 世界 范围 工作 ， 并 且 需 要 基于 国际 的 电话 号 码 。 如 果 你 不 确定 要 使 用 什么 

国际 电话 代码 ， 维 基 有 一 个 很 棒 的 列表 (https://en.wikipedia.org/wiki/List_of_country_ 


calling_codes ) 。 









































如 果 你 对 让 脚本 通过 Python“ 交 谈 ” 感 兴趣 ，Python 的 text-to-speech 模块 
(https://pyttsx.readthedocs.org/en/latest/) 可 以 在 电话 上 “朗读 ”你 的 文字 。 


是: 


3. 集成 聊天 

如 果 你 想 要 集成 聊天 室 到 警报 系统 中 ， ee 团队 或 合作 者 普遍 使 用 聊天 室 ， 有 很 多 
Python 聊天 室 工 具 可 用 。 根 据 聊 天 室 客户 端 和 需要 ， 可 以 选择 Python 或 者 基于 API 的 解 
决 方案 ， 你 可 以 使 用 关于 REST 客户 J 内， 连接 并 向 正确 的 人 发 送 关 消息 

如 果 你 使 用 HipChat， 他 们 的 API (https:/www.hipchat.com/docs/apiv2) 很 容易 同 Python 
应 用 程序 或 脚本 集成 。 这 里 有 各 种 各 样 的 Python 库 (https://www.hipchat.com/docs/apiv2/ 
libraries) ， 可 以 简单 地 发 送信 息 到 聊天 室 或 直接 发 送 给 个 人 。 

为 了 开始 使 用 HipChat API， 你 需要 首先 登录 (https://hipchat.com/account/api) 并 获取 
一 个 API token。 你 可 以 使 用 Python 库 HypChat (https://github.com/RidersDiscountCom/ 
HypChat) ， 发 送 一 个 快速 信息 到 聊天 室 。 


首先 ， 使 用 pip 安装 HypChat: 
pip install hypchat 
现在 ， 使 用 Python 发 送 一 条 信息 ! 


from hypchat import HypChat 
from utils import get_config 


















































def get_client(config): 
cLient = HypChat(config.get('hipchat', 'token')) © 
return client 


def message_room(client, room name, message): 
try: 
room = client.get room(room name) © 
room.message(message) © 
except Exception as e: 
print e @ 


def main(): 
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config = get_config('DEV') @ 
client = get_ client(config) 
message_room(client, 'My Favorite Room', "I'M A ROBOT!") 


@ 使 用 HypChat 库 同 聊天 室 客 户 端 交谈 。 这 个 库 使 用 HipChat token 初始 化 一 个 新 的 客户 
端 ， 我 们 将 token 保存 在 配置 文件 中 。 

名 这 行 代码 使 用 get_roon 方法 ， 选 择 与 字符 串 名 称 匹配 的 房间 。 

@ 这 行 代码 使 用 message 方法 发 送 一 条 信息 到 一 个 房间 或 者 一 个 用 户 ， 传 递 给 函数 一 个 简 
单 的 字符 串 ， 里 面包 含 想 说 的 内 容 。 

@ 总 是 在 基于 API 库 的 周围 使 用 try.. .except 代码 块 ， 以 应 对 连接 错误 或 者 API 改变 带 
来 的 异常 。 这 段 代 码 打印 了 错误 ， 但 是 你 可 能 更 想 打 印 日 志 ， 以 充分 地 自动 化 脚本 。 

回 这 里 使 用 的 函数 get_config 是 从 不 同 的 脚本 中 导入 的 。 通 过 引入 这 些 辅助 函数 ， 并 且 将 
它们 放置 到 独立 的 模块 中 复 用 ， 我 们 遵循 了 模块 化 的 代码 设计 。 

如 果 想 要 登录 到 聊天 室 ， 你 可 以 使 用 HipLogging (https://github.com/invernizzi/hiplogging) 

探索 这 些 选项 。 取 决 于 需求 和 团队 的 工作 方式 ， 你 可 以 根据 自己 的 喜好 设置 聊天 室 的 登录 

功能 ;但 是 好 消息 是 ， 你 总 是 可 以 在 他 们 可 能 看 见 的 地 方 留 下 笔记 | 

如 果 你 更 喜欢 Google Chat， 有 很 多 非常 棒 的 示例 展示 了 如 何 使 用 SleekXMPP (http:/ 

sleekxmpp.com/getting_started/sendlogout.html) 做 这 件 事 。 你 还 可 以 使 用 SleekXMPP 发 送 

Facebook 聊天 信息 (http://stackoverflow.com/questions/18906462/send-facebook-messages-via- 

sleekxmpp/21452035#21452035 ) 。 



































关于 Slack 信息 ， 查 看 Slack 团队 的 Python 客户 端 (https://github.com/slackhq/python-slackclient) 。 


对 于 其 他 的 聊天 客户 端 ， 建 议 你 使 用 Google 搜索 “Python < 你 的 客户 端 名 称 >”。 很 有 可 能 
有 人 已 经 党 试 使 用 他 们 的 Python 代码 同 这 个 客户 端 连 接 ， 又 或 者 有 API 可 供 你 使 用 。 在 
第 13 章 中 ， 你 知道 了 如 何在 工作 中 使 用 一 个 API。 


关于 脚本 (和 自动 化 ) 成 功 或 失败 的 警报 的 选择 有 这 么 多 ， 很 难 知 道 应 使 用 哪 一 个 。 重 要 
的 是 选择 一 个 你 或 你 的 团队 经 常 使 用 的 方式 。 优 先 考 虑 易 用 性 和 与 日 常生 活 的 整合 是 必需 
的 ， 自 动 化 会 帮助 你 节省 时 间 ， 不 让 你 花费 更 多 的 时 间 来 检查 服务 。 


14.8.3 上 传 和 其 他 报告 


如 果 你 需要 上 传 报告 或 图 片 到 独立 的 服务 或 文件 分 享 作为 自动 化 的 一 部 分 ， 有 很 多 很 棒 的 
工具 。 如 果 这 是 一 种 在 线 的 形式 ， 或 者 一 个 需要 与 之 交互 的 网 站 ， 建 议 使 用 第 12 章 中 的 
Selenium 爬 取 技巧 。 如 果 这 是 一 个 FTP 服务 器 ，Python 有 一 个 标准 FTP 库 (https://docs. 
python.org/2/library/ftplib.html)。 如 果 和 需要 发 送 报告 给 一 个 API， 或 者 通过 Web 协议 发 送 ， 
你 可 以 使 用 requests 库 ， 或 者 在 第 13 章 中 学 到 的 API 技巧 。 如 果 需 要 发 送 XML， 你 可 以 
使 用 LXML (查看 第 11 章 )。 


无 论 准 备 同 哪些 服务 交互 ， 你 很 有 可 能 与 服务 有 过 接触 和 交流 。 我 们 希望 你 自信 地 练习 这 
些 技能 ， 并 且 独 立 思考 。 
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14.8.4 日 志和 监控 服务 


如 果 一 个 脚本 满足 不 了 需求 ,或 者 你 想 将 自动 化 程序 合并 到 一 个 大 型 的 组 织 框架 中 ,你 
能 需要 研究 将 日 志和 监控 作为 一 个 服务 的 技术 。 有 很 多 公司 通过 创建 工具 和 系统 来 跟踪 日 
志 ， 致 力 于 让 数据 分 析 师 和 开发 者 的 生活 更 简单 。 这 些 工具 通常 有 非常 简单 的 Python 库 ， 
将 日 志和 监控 信息 发 送 到 它们 的 平台 。 


通过 日 志 服 务 ， 你 可 以 将 更 多 的 时 间 投入 到 研究 和 脚本 中 ， 将 更 少 的 时 间 用 
于 管理 监控 和 日 志 。 这 可 以 将 “我 们 的 脚本 在 不 在 工作 ， 工 作 得 怎么 样 ? ” 
这 样 的 问题 留 给 团队 中 的 非 开 发 者 ， 因 为 其 中 的 很 多 服务 都 有 很 棒 的 报表 和 
内 置 的 警报 。 

















根据 自动 化 程序 的 大 小 和 布局 ， 你 可 能 同时 需要 系统 监控 以 及 脚本 与 错误 监控 。 在 这 一 市 
中 ， 我 们 会 查看 几 种 能 够 同时 完成 这 两 件 事 的 服务 ， 同 时 也 会 查看 一 些 更 加 专业 的 服务 。 
即使 你 的 自动 化 程序 的 规模 没有 大 到 需要 它们 ， 但 是 了 解 什 么 是 可 用 的 总 是 好 的 。 

1. 日 志和 异常 

基于 Python 的 日 志 服务 提供 了 打印 日 志 到 一 个 中 心服 务 的 能 力 ， 同 时 让 你 的 脚本 在 一 系列 
不 同 的 机 器 上 运行 ， 无 论 是 本 地 机 器 还 是 远程 机 器 。 

一 个 有 着 很 棒 的 Python 支持 的 类 似 服务 是 Sentry (https:Wgetsentry.com/welcome/)。 只 
需要 每 月 支付 很 少 的 费用 ， 你 就 可 以 访问 错误 的 报告 板 ， 收 到 基于 异常 临界 值 发 送 的 警 
报 ， 监 控 基 于 日 、 周 、 月 的 错误 和 异常 类 型 。Sentry 的 Python 客户 端 (https://github.com/ 
getsentry/raven-python) 非常 容易 安装 、 配 置 和 使 用 。 如 果 你 正在 使 用 类 似 Django、Celery 
的 工具 ， 甚 至 是 简单 的 Python 日 志 工 具 (https:Wdocs.sentry.io/clients/python/) ，Sentry 都 有 
相应 的 集成 接口 ， 所 以 你 不 需要 大 量 地 修改 代码 来 开始 工作 。 最 重要 的 是 ， 基 础 代码 持续 
地 更 新 ， 工 作 人 员 非 常 友善 ， 在 你 有 问题 的 时 候 乐 于 帮助 你 。 


其 他 选择 包括 Airbrake (https://airbrake.io/languages/python_bug_tracker) 和 Rollbar (https:// 
rollbar.com)。Airbrake 最 开始 是 一 个 基于 Ruby 的 异常 跟踪 器 ， 现 在 开始 支持 Python。 这 
是 一 个 很 受 欢迎 的 市 场 ， 所 以 在 本 书 开始 印刷 时 很 可 能 会 有 新 的 库 发 布 。 

还 有 拉 取 和 解析 日 志 的 服务 ， 例 如 Loggly (https://www.loggly.com/) 和 Logstash (https:// 
www.elastic.co/products/logstash) 。 这 些 服务 允许 你 在 聚合 的 日 志 级 别 上 监控 它们 ， 同 样 也 
可 以 解析 、 搜 索 以 及 在 日 志 中 寻找 问题 。 这 些 工 具 只 在 你 有 足够 的 日 志和 时 间 检 查 它们 时 
才 有 用 ,但 是 对 于 有 着 大 量 日 志 的 分 布 式 系 统 非常 有 用 处 。 

2. 日 志和 监控 

如 果 你 有 分 布 式 机 器 或 者 正在 集成 脚本 到 公司 或 大 学 的 基于 Python 的 服务 器 环境 ， 你 可 能 
想 要 更 健壮 的 监控 ， 不 仅仅 是 针对 Python， 而 是 整个 系统 。 有 很 多 服务 提供 了 系统 数据 库 
负载 监控 、Web 应 用 程序 的 监控 ， 同 样 也 有 自动 化 任务 的 监控 。 

New Relic (http://mewrelic.com/) 是 这 方面 最 流行 的 服务 之 一 ， 它 可 以 监控 服务 器 和 系统 进 
程 ， 也 可 以 监控 Web 应 用 程序 。 使 用 MongoDB 和 AWS ? 或 者 MySQL 和 Apache ? New 
Relic 插件 (http://newrelic.com/plugins) 让 你 可 以 轻松 地 将 服务 的 日 志 集成 到 用 于 监控 服务 
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器 和 应 用 健康 的 报告 板 中 。 除 此 之 外 ， 它 们 提供 了 一 个 Python 代理 (https://docs.newrelic. 
com/docs/agents/python-agent/getting-started/introduction-new-relic-python)， 通 过 它 你 可 以 很 
容易 地 为 Python 应 用 (或 脚本 ) 在 相同 的 生态 系统 中 打印 日 志 。 在 整合 所 有 的 监控 工具 之 
后 ， 发 现 问题 和 创建 合适 的 警报 系统 会 变 得 更 简单 ， 这 样 团队 中 的 相关 人 员 会 及 时 了 解 任 
何 发 生 的 问题 。 
另外 一 个 系统 和 应 用 监控 服务 是 Datadog (https://www.datadoghq.com/)。Datadog 允许 你 
整合 许多 服务 (https://www.datadoghq.com/product/integrations/) 到 一 个 报告 板 中 。 这 会 节 
省 时 间 和 精力 ， 让 你 轻松 地 发 现 项 目 、 应 用 和 脚本 中 的 错误 。Datadog 的 Python 客户 端 
(https://github.com/DataDog/datadogpy) 能 够 打印 你 想 监控 的 不 同事 件 的 日 志 ， 但 是 需要 一 
些 个 性 化 设置 。 
无 论 你 使 用 什么 监控 器 ， 也 无 论 你 是 决定 构建 自己 的 监控 器 还 是 使 用 一 个 服务 ， 拥 有 规律 
的 警报 、 深 入 了 解 你 使 用 的 服务 、 理 解 代 码 和 自动 化 系统 的 完整 性 是 非常 重要 的 。 
当 依赖 自动 化 程序 完成 工作 和 项 目的 其 他 部 分 时 ， 你 应 该 确保 监控 系统 容易 
使 用 并 且 直 观 ， 这 样 你 可 以 专注 于 项 目 中 更 重要 的 部 分 ， 不 用 承担 玻 忽 错误 
或 其 他 问题 的 风险 。 






































14.9 没有 万 无 一 失 的 系统 


正如 本 章 讨论 的 那样 ， 完 全 依赖 于 任何 系统 都 是 鲁莽 的 ， 应 该 避免 。 无 论 你 的 脚本 或 系统 
看 起 来 多 么 完美 无 缺 ， 都 会 在 一 些 时 间 点 失败 。 如 果 你 的 脚本 依赖 于 其 他 的 系统 ， 它 们 可 
能 在 任何 时 间 点 失败 。 如 果 你 的 脚本 包含 来 自 API、 服 务 或 网 站 的 数据 ， 有 可 能 API 或 网 
站 会 改变 或 月 沉 ， 以 致 需要 维修 ,或 者 可 能 会 发 生 任意 数量 的 其 他 事件 ， 导 致 自动 化 失败 。 
如 果 一 个 任务 是 绝对 的 关键 任务 ， 就 不 应 该 自动 化 。 你 可 以 自动 化 其 中 的 一 部 分 或 绝 大 部 
分 ,但 是 它 总 是 需要 高 度 的 监督 和 工作 人 员 来 确保 它 没 有 失败 。 如 果 这 很 重要 ， 但 不 是 最 
重要 的 部 分 ， 对 这 一 部 分 的 监控 和 和 警报 应 该 反映 出 它 的 重要 程度 。 


随 着 深入 数据 处 理 和 自动 化 ， 你 会 花费 越 来 越 少 的 时 间 构 建 高 质量 的 任务 和 
脚本 ， 更 多 的 时 间 会 花费 在 解决 问题 、 关 键 问 题 的 思考 以 及 应 用 分 析 领 域 的 
方法 论 和 领域 知识 到 工作 中 。 自 动 化 可 以 帮助 你 做 这 些 事情 ， 但 是 对 于 自动 
化 什么 重要 任务 以 及 如 何 自动 化 ， 持 谨慎 的 态度 总 是 好 的 。 






















































































随 着 自动 化 程序 的 成 熟 和 发 展 ， 你 不 仅 改进 了 自动 化 程序 ， 让 它 有 更 好 的 伸缩 性 ， 同 时 增 
加 了 对 代码 库 、Python 以 及 数据 与 报告 的 理解 。 


14.10 ”小 结 


你 已 经 学 习 了 使 用 小 规模 和 大 规模 解决 方案 来 自动 化 大 量 的 数据 处 理工 作 。 你 可 以 通过 日 
志 、 监 控 和 基于 云 的 解决 方案 监控 和 跟踪 脚本 和 任务 以 及 子 任务 ， 这 意味 着 你 可 以 花费 更 
少 的 时 间 跟 踪 这 些 事情 ， 花 费 更 多 的 时 间 在 真正 的 报告 上 。 你 已 经 定义 了 自动 化 可 能 成 功 
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和 失败 的 方式 ， 并 帮助 创建 了 一 套 清晰 的 关于 自动 化 的 指南 (理解 所 有 的 系 
给 其 


-Hs 


必 将 失败 )。 你 知道 如 何 

















缠 最 


统 最 后 都 会 也 
团队 成 员 和 同事 权利 ， 以 后 他 们 可 以 自己 运行 任务 ， 同 








他 的 





时 你 也 学 习 了 一 些 部 署 和 设置 Python 自动 化 的 知识 。 
表 14-3 总 结 了 本 章 中 的 新 概念 和 库 。 
表 14-3: 新 的 Python 和 编程 概念 和 库 






































任务 / 库 目的 

在 远程 运行 脚本 在 一 台 服 务 器 或 者 其 他 的 机 器 上 运行 代码 ， 这 样 你 就 不 必 担 心 自己 使 
用 计算 机 时 会 受到 干扰 

命令 行 参数 在 运行 Python 脚本 时 使 用 argv 解析 命令 行 参数 

环境 变量 使 用 环境 变量 参与 实现 脚本 逻辑 (例如 运行 在 什么 机 器 上 ， 使 用 什么 
配置 ) 

使 用 Cron 在 你 的 服务 器 或 远程 计算 机 上 编写 一 个 shell 脚本 来 执行 一 个 cron 任 
务 。 是 一 种 基本 的 自动 化 形式 

配置 文件 使 用 配置 文件 为 脚本 定义 敏感 或 特殊 的 信息 

Git 部 署 使 用 Git 轻松 地 部 署 代 码 到 一 台 或 更 多 的 远程 机 器 上 

并 行 处 理 Python 的 multiprocessing 模块 让 你 能 在 同一 时 间 轻 松 地 运行 很 多 进 
程 ， 同 时 有 共享 数据 和 锁 机 制 

MapReduce 有 了 分 布 式 数据 ， 你 可 以 根据 特定 的 属性 映射 数据 ， 或 者 通过 执行 一 


Hadoop 和 Spark 





一 、 


Celery (任务 队列 使 用 和 管理 ) 


logging 模块 


smtp 和 email 模块 
Twilio 

HypChat 

日 志 服 务 


监控 服务 











系列 的 任务 ， 之 后 规约 数据 ， 聚 合 分 析 

两 个 在 云 计 算 中 工具 用 来 执行 MapReduce 操作 的 工具 。Hadoop 更 适 
合 于 已 经 定义 和 存储 的 数据 集 ， 而 Spark 更 适合 于 你 有 流 式 、 特 别 的 
大 或 动态 生成 的 数据 时 
让 你 能 够 使 用 Python 创建 一 个 任务 队列 并 管理 它 ， 人 允许 你 自动 化 没 
有 清晰 的 开始 和 结束 时 间 的 任务 

用 于 你 的 应 用 或 脚本 的 内 置 日 志 模 块 ， 通 过 它 你 可 以 轻松 地 跟踪 错 
误 、 调 试 信息 和 异常 

来 自 Python 脚本 的 内 置 邮件 警报 

一 个 有 着 Python API 客户 端的 服务 ， 提 供电 话 和 文本 信息 业务 

一 个 Python API 库 ， 可 以 使 用 HipChat 聊天 客户 端 构建 聊天 程序 
使 用 类 似 Sentry 或 Logstash 的 服务 管理 你 的 日 志 、 错 误 率 和 异常 
使 用 类 似 New Relic 或 Datadog 的 服务 监控 日 志 、 服 务 正常 运行 时 间 、 
数据 库 问 题 和 性 能 ( 即 发 现 硬件 问题 ) 




































































学 习 了 本 书 前 面 章节 中 的 丰富 知识 ， 你 现在 应 该 已 经 准备 好 去 花 时 间 构 建 高 质量 的 工 
有 具 ， 并 让 这 些 工 具 为 你 做 枯燥 乏味 的 工作 了 。 你 可 以 丢掉 那些 老 套 的 电子 表格 公式 ， 使 用 


Python 导入 数据 ， 运 行 分 析 ， 直 接 交 付 报告 到 邮箱 。 


任务 (就 像 机 器 人 助手 一 样 





)s 

















你 可 以 真正 地 让 Python 管理 刻板 的 
自己 投身 于 报告 中 更 关键 和 有 挑战 的 部 分 。 
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第 15 章 
结论 





蕉 喜 ! 你 已 经 到 达 本 书 的 最 后 一 章 。 在 刚 开始 阅读 本 书 的 时 候 ， 你 可 能 只 知道 一 点 Python 
知识 ， 也 没有 使 用 编程 研究 数据 的 经 验 。 

现在 你 的 经 验 应 该 相当 不 同 了 。 你 已 经 积累 了 寻找 和 清洗 数据 的 知识 和 经 验 。 你 已 经 通过 
专注 于 问题 和 根据 给 定 的 数据 集 进行 取舍 ， 磨 练 了 技能 。 你 可 以 编写 简单 的 正则 表达 式 和 
复杂 的 网 页 抓 取 嚣 。 你 可 以 在 云端 规模 化 数据 和 进程 ， 并 通过 自动 化 的 方式 管理 数据 。 


然而 ， 乐 趣 不 会 止 于 此 ! 作为 数据 处 理 者 ， 你 在 职业 生涯 中 还 有 很 多 要 学 习 和 实践 的 东 
西 。 你 可 以 利用 在 本 书 中 学 到 的 技能 和 工具 ， 继 续 扩 展 知识 ， 进 而 拓展 数据 处 理 领 域 的 界 
限 。 我 们 鼓励 你 追求 卓越 ， 继 续 针 对 数据 、 进 程 和 方法 提出 难题 。 


15.1 数据 处 理 者 的 职责 


正如 我 们 在 本 书 和 调查 中 确定 的 ， 数 据 和 数据 处 理 者 可 得 出 的 结论 是 非常 多 的 。 但 机 会 也 
伴随 着 责任 。 
没有 数据 处 理 的 警察 ， 但是， 你 在 我 们 的 书 中 学 到 了 一 些 道德 知识 。 你 已 经 学 到 要 成 为 一 
名 谨慎 的 网 页 抓 取 者 。 你 学 习 了 拿 起 电话 ， 询 问 更 多 的 信息 ; 学 习 了 在 展示 发 现时 如 何 解 
释 和 文档 化 你 的 进程 ， 还 学 习 了 如 何 针 对 困难 话题 提出 难题 ， 特 别 是 当 数据 源 有 其 他 动机 
的 时 候 。 


作为 一 个 数据 处 理 者 ， 随 着 你 不 断 学 习 、 成 长 ， 你 的 道德 感 也 会 增强 ， 并 会 在 工作 和 进程 
中 指引 和 帮助 你 。 从 某 种 程度 上 讲 ， 你 现在 已 经 是 一 名 研究 型 记者 了 。 你 获得 的 结论 和 你 
问 的 问题 可 以 并 且 能 够 在 你 的 领域 中 产生 影响 。 知 道 了 这 些 ， 你 就 有 了 责任 的 压力 。 


你 的 职责 包括 : 
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。 使 用 你 的 知识 、 技 术 和 能 力 ， 用 于 公正 和 有 益 的 事情 ; 

。 为 你 周围 的 人 贡献 知识 ; 

。 回馈 帮助 你 的 社区 ， 

。 挑战 迄今 为 止 你 学 到 的 道德 的 反面 ， 并 且 继 续 开发 。 

我 们 鼓励 你 在 数据 处 理 者 的 职业 生涯 中 迎接 这 些 挑战 。 你 是 否 喜 欢 同 其 他 人 一 起 工作 ， 分 
享 知识 ? 成 为 一 名 导师 ! 你 是 否 喜欢 某 个 开源 包 ? 成 为 一 个 代码 或 文档 的 贡献 者 ! 你 是 否 
研究 过 重要 的 社会 或 健康 问题 ?将 你 的 发 现 贡献 给 学 术 团 体 或 社区 ! 你 是 否 经 历 过 来 自 某 
个 社区 或 代码 的 难题 ?向 全 世界 分 享 你 的 故事 吧 。 


15.2 数据 处 理 之 上 


本 书 的 课程 提高 了 你 的 技能 ， 但 是 你 还 有 很 多 要 学 习 的 东西 。 根 据 你 的 技术 栈 和 兴趣 ， 有 
许多 领域 值得 进一步 探索 。 


15.2.1 成 为 一 名 更 优秀 的 数据 分 析 师 

本 书 介绍 了 统计 和 数据 分 析 。 如 果 你 想 要 真正 地 夯实 统计 和 分 析 技 能 ， 需 要 花 更 多 的 时 间 
阅读 方法 背后 的 科学 知识 ， 同 样 还 要 学 习 一 些 更 专业 的 Python 包 ， 这 样 你 在 分 析 数 据 集 时 
会 有 更 多 的 能 力 和 灵活 性 。 

为 了 学 习 更 高 级 的 统计 学 知识 ， 回 归 模 型 和 数据 分 析 背 后 的 数学 知识 是 必须 学 习 的 。 如 
果 你 没有 上 过 任何 统计 学 课程 ，Edx 有 一 个 很 棒 的 来 自 加 州 大 学 伯克利 分 校 的 存档 课程 
(https://courses.edx.org/courses/BerkeleyX/Stat_2.1x/1T2014/info)。 如 果 你 想 通 过 读书 来 探 
索 , Allen Downey 的 《统计 思维 : 程序 员 数 学 之 概率 统计 (第 2 版 )》 很 好 地 介绍 了 统计 数 
学 概念 并 且 使 用 了 Python。Cathy ONeill 和 Rachel Schutt 的 《数据 科学 实 成 》” 提供 了 数据 
科学 领域 的 深入 分 析 。 

如 果 你 想 学 习 scipy 技术 栈 和 更 多 关于 Python 如 何 帮助 你 进行 高 级 数学 和 统计 分 析 的 知 
识 ， 你 很 幸运 。pandas 的 一 个 主要 贡献 者 Wes McKinney 编写 了 《利用 Python 进行 数据 分 
析 》， 深 度 讲解 了 pandas。pandas 的 文档 (http://pandas.pydata.org/pandas-docs/stable/10min. 
html) 也 是 很 好 的 入 门 方法 。 在 第 7 章 中 ， 你 学 习 了 一 些 关 于 numpy 的 知识 。 如 果 你 对 学 
习 numpy 一 些 核心 的 知识 感 兴 趣 ， 查 看 SciPy 关于 基础 的 介绍 (https://docs.scipy.org/doc/ 
numpy/userbasics.html) 。 


15.2.2 成 为 一 名 更 优秀 的 开发 者 

如 果 你 想 要 增强 Python 技能 ，Luciano Ramalho 的 《流畅 的 Python》; 深入 讨论 了 Python 
中 的 一 些 设计 模式 。 我 们 也 强烈 建议 你 浏览 世界 各 地 最 新 的 Python 活动 的 视频 (http:// 
pyvideo.org/) ， 并 研究 你 感 兴趣 的 主题 。 


























































































































注 1: 此 书 已 由 人 民 邮 电 出 版 社 出 版 。 编者 注 
注 2: 此 书 已 由 人 民 邮 电 出 版 社 出 版 。 编者 注 
注 3: 此 书 已 由 人 民 邮 电 出 版 社 出 版 。 编者 注 


























如 果 本 书 是 你 的 第 一 本 编程 入 门 书 ， 你 可 能 想 要 参加 一 个 计算 机 科学 的 入 门 课程 。 如 果 你 
想 要 自学 ，Coursera 提供 了 斯 坦 福 大 学 的 一 个 课程 (https://www.coursera.org/course/cs101)。 
如 果 你 想 要 一 本 介绍 计算 机 科学 背后 的 理论 知识 的 在 线 教科 书 ， 我 们 推荐 Structure and 
Interpretation of Computer Programs (https://mitpress.mit.edu/sicp/full-text/book/book.htm]l), 
由 Harold Abelson 和 Gerald Jay Sussman 编写 (MIT 出 版 社 ) 。 


如 果 你 想 通 过 与 其 他 人 一 起 构建 和 工作 来 学 习 更 多 的 开发 原则 ， 我 们 建议 你 找 一 个 本 地 讨 
论 组 并 参与 进去 。 许 多 类 似 的 小 组 会 举办 本 地 或 远程 的 极 客 开 发 活动 ， 所 以 你 可 以 同 他 人 
一 起 编写 代码 ， 通 过 实践 来 学 习 。 


之 人 * 2 &, 
15.2.3 ”成 为 一 名 更 优秀 的 视觉 化 讲 故事 者 
如 果 你 对 本 书 中 视觉 化 讲 故 事 的 部 分 特别 感 兴趣 ， 有 很 多 拓展 该 领域 知识 的 方式 。 如 果 你 
想 继 续 研 究 我 们 使 用 过 的 库 ， 我 们 强烈 建议 你 学 习 Bokeh 的 入 门 教程 (http://bokeh.pydata. 
org/en/latest/docs/user_guide/tutorials.html) ， 同 时 利用 你 的 Jupyter notebooks 做 实验 。 
学 习 JavaScript 和 JavaScript 社区 中 流行 的 一 些 可 视 化 库 ， 会 帮助 你 成 为 一 名 更 好 的 用 视觉 
讲 故 事 者 。Square 提供 了 一 个 关于 D3 课程 的 介绍 (https://square.github.io/intro-to-d3/)， 对 
流行 的 JavaScript 库 D3 (https:Wd3js.org/) 做 了 简短 说 明 。 
最 后 ， 如 果 你 想 从 数据 分 析 的 角度 学 习 视 觉 化 讲 故 事 背 后 的 一 些 理论 和 想法 ， 我 们 推荐 
Edward Tufte 的 Visual Display of Quantitative Information (https://www.amazon.com/Visual- 
Display-Quantitative-Information/dp/0961392142/，Graphics 出 版 社 )。 


15.2.4 成 为 一 名 更 优秀 的 系统 架构 师 
如 果 你 想 学 习 如 何 规模 化 、 部 署 和 管理 系统 ， 我 们 几乎 没有 触及 系统 表层 。 


如 果 你 想 学 习 更 多 的 Unix 知识 ， 萨 里 大 学 有 一 个 简短 的 教程 ， 介 绍 了 一 些 优秀 的 概念 
(http://www.ee.surrey.ac.uk/Teaching/Unix/index.html)。Linux 文档 项 目 同 样 有 一 个 简短 的 关 
于 bash 编程 的 介绍 〈http:/tldp.org/HOWTO/Bash-Prog-Intro-HOWTO.html) 。 







































































我 们 强烈 建议 你 花 时 间 学 习 Ansible (http://docs.ansible.com/ansible/intro_getting_started. 
html) ， 一 个 可 扩展 的 、 灵 活 的 服务 器 和 系统 管理 解决 方案 。 如 果 你 对 规模 化 数据 解决 方案 
感 兴趣 ，Udacity 提供 了 一 个 对 Hadoop 和 MapReduce 课程 的 介绍 (https://cn.udacity.com/ 
course/intro-to-hadoop-and-mapreduce--ud617)。 你 同样 应 该 查看 斯 坦 福 大 学 关于 Apache 
Spark 的 介绍 (http://stanford.edu/~rezab/sparkclass/slides/itas_workshop.pdf)， 还 有 PySpark 
编程 指南 (https:Wspark.apache.org/docs/0.9.0/python-programming-guide.html ) 。 


15.3 下 一 步 做 什么 


下 一 步 你 会 怎么 做 ?你 拥有 很 多 新 技能 ， 并 且 能 够 质疑 自己 的 假设 和 发 现 的 数据 。 你 还 有 
一 些 Python 的 应 用 知识 ， 而 且 很 多 有 用 的 库 触 手 可 及 。 


如 果 你 对 特定 的 领域 或 数据 集 没 有 热情 ， 你 会 想 要 发 现 新 的 学 习 领 域 ， 继续 你 作为 一 名 数 
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据 处 理 者 的 进程 和 探索 。 很 多 很 棒 的 数据 分 析 师 书写 了 很 多 激励 人 心 的 故事 。 这 里 就 有 一 


些 这 样 的 故事 。 


这 个 世界 还 有 数 不 清 的 未 讲述 的 故事 。 如 果 你 有 激情 或 信和 从 








FiveThirtyEight (http://fivethirtyeight.com/)， 曾 是 《纽约 时 报 》 记 者 Nate Silver 的 博客 ， 
现在 是 一 个 拥有 众多 作家 和 分 析 师 的 站 点 ， 研 究 许 多 不 同 的 主题 。 在 弗格森 大 陪审 团 决 
定 不 起 诉 达 伦 : 威尔逊 后 ，FiveThirtyEight 发 布 了 一 篇 文章 ， 显 示 收 入 出 现 了 离 群 现象 
(https://fivethirtyeight.com/datalab/ferguson-michael-brown-indictment-darren-wilson/)。 在 
一 个 和 争议 性 的 话题 中 ， 如 果 有 能 力 展示 数据 趋势 或 倾向 ， 将 可 以 帮助 我 们 去 除 故 事 中 的 
一 些 情绪 ， 揭 示 数 据 真 正 想 要 诉说 的 东西 。 

《华盛顿 邮 报 》 的 一 项 关于 收入 差距 的 研究 (https://www.washingtonpost.com/news/ 
wonk/wp/2014/11/04/affirmative-action-for-rich-kids-getting-a-job-at-dads-company/?utm_ 
term=.80495391806a) 使 用 税收 和 和 人口 普查 数据 得 出 结论 : 在 择业 和 初始 薪水 方面 “ 老 
同学 关系 网 ”(ol boy network) 依然 存在 ， 但 是 在 得 到 第 一 份 工作 后 ， 这 些 关 系 网 通常 
会 弱化 或 者 消失 。 

我 们 已 经 研究 了 非洲 雇用 童工 的 组 织带 来 的 一 些 影响 ， 包 括 挖掘 冲突 矿产 。 国 际 特赦 
组 织 (Amnesty International) 和 全 球 见 证 (Global Witness) (http://www.bbc.com/news/ 
business-32403315) 近日 的 一 个 报道 发 现 ， 大 多 数 美国 公司 没有 充分 检查 供应 链 ， 来 确 
保 没有 使 用 冲突 矿产 。 














， 很 可 能 你 的 观点 和 数据 处 理 
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念 
技术 可 以 帮助 人 们 和 社区 。 如 果 你 没有 激情 ， 我 们 鼓励 你 通过 跟 进 新 闻 、 文 档 和 网 络 上 的 
数据 分 析 ， 不 断 地 学 习 。 
无 论 你 的 兴趣 是 什么 ， 都 有 无 限 的 可 能 性 去 识 入 学 习 和 和 掌握 本 书 中 介绍 的 概念 。 任 何 最 能 
激发 你 兴趣 的 事情 ， 就 是 未 来 学 习 的 最 好 途径 。 我 们 希望 这 本 书 只 是 你 数据 处 理 者 生涯 的 
一 个 起 点 。 


























附录 人 


编程 语言 对 比 





通常 情况 下 ， 当 你 使 用 某 种 编程 语言 时 ， 其 他 人 都 会 问 你 选择 这 种 语言 的 原因 。 为 什么 不 
用 X 或 Y 昵 ? X 或 Y 的 选择 有 许多 ,这 取决 于 提问 者 都 知道 哪些 语言 ， 也 取决 于 他 是 不 
是 一 个 狂热 的 开发 者 。 要 试 着 理解 他 们 问 这 个 问题 的 原因 ， 也 最 好 思考 一 下 自己 的 回答 : 
为 什么 选择 Python ? 本 附录 将 对 比 Python 和 其 他 有 用 的 编程 语言 ， 你 可 以 据 此 回答 上 述 
问题 ， 也 可 以 深入 理解 我 们 选择 编程 语言 的 理由 。 


A.1 C、 C++、Java 与 Python 


与 C、C++ 和 Java 相 比 ，Python 很 容易 学 习 ， 特 别 是 对 没有 计算 机 背景 的 人 来 说 。 许 多 和 
你 起 点 相同 的 人 已 经 可 以 开发 插件 和 有 用 的 工具 ， 使 Python 在 数据 科学 和 数据 处 理 领 域 更 
加 强大 、 更 加 高 效 。 


至 于 技术 性 差异 ，Python 是 一 种 高 级 语言 ， 而 C 和 C++ 是 低级 语言 。Java 是 高 级 语言 ， 
但 又 有 一 些 低级 语言 的 特性 。 这 是 什么 意思 ?高 级 语言 将 与 计算 机 架构 的 交互 抽象 化 ， 你 
可 以 输入 代码 字 (code word， 比 如 for 循环 或 变量 定义 )， 高 级 语言 会 将 其 编译 成 计算 机 
可 以 执行 的 代码 ， 而 低级 语言 会 直接 处 理 这 些 代码 字 。 与 高 级 语言 相 比 ， 低 级 计算 机 语言 
的 运行 速度 更 快 ， 可 以 更 直接 地 控制 系统 ， 从 而 优化 内 存 管理 等 。 高 级 语言 更 容易 学 习 ， 
因为 它 已 经 帮 你 完成 了 大 多 数 低 级 别 的 任务 。 

对 于 本 书 中 的 练习 而 言 ， 不 需要 系统 控制 ， 也 不 需要 将 运行 时 间 缩 短 数秒 ， 所 以 我 们 不 需 
要 用 到 低级 语言 。 虽 然 Java 也 是 高 级 语言 ， 但 它 的 学 习 难 度 比 Python 更 高 ， 你 需要 更 长 
时 间 才 能 上 手 。 
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A.2 R 或 MATLAB 与 Python 


Python 有 许多 库 (补充 代码 )， 能 够 实现 与 R 和 MATLAB 相同 的 功能 。 这 些 库 的 名 字 
是 pandas (http://pandas.pydata.ore/) 和 numpy (http://www.numpy.org/)。 这 些 库 可 以 处 
理 与 大 数据 和 统计 分 析 相 关 的 任务 。 如 果 你 想 学 习 更 多 这 方面 的 内 容 ， 你 应 该 查阅 Wes 
McKinney 的 《利用 Python 进行 数据 分 析 》 一 书 。 如 果 你 在 RR 或 MATLAB 方面 有 较 强 的 
专业 背景 ， 可 以 继续 用 这 些 工 具 来 处 理 数据 。 在 这 种 情况 下 ，Python 是 一 个 很 好 的 补充 工 
具 。 但 是 ， 用 同一 种 语言 负责 工作 流程 中 的 每 一 个 环 市 ， 可 以 让 数据 处 理 过 程 更 容易 ， 维 
护 起 来 也 更 加 方便 。 同 时 学 习 R (或 MATLAB) 和 Python， 你 可 以 根据 具体 项 目 需 求 来 
选择 使 用 哪 种 语言 ， 这 样 可 以 更 好 地 满足 项 目的 需求 ， 也 更 加 方便 。 


A.3 HTML 与 Python 


解释 为 什么 不 用 HTML 处 理 数 据 ， 就 如 同 解释 为 什么 不 把 水 放 到 油箱 里 一 样 ， 你 就 是 不 会 
这 么 做 。HTML 的 用 途 不 在 于 此 。HTML 代表 HyperText Markup Language ( 超 文 本 标记 
语言 )， 用 来 为 浏览 器 中 显示 的 网 页 提供 基本 结构 。 我 们 在 第 3 章 中 讨论 过 XML， 与 此 类 
似 ， 我们 也 可 以 用 Python 解析 HTML， 但 反 过 来 却 不 行 。 


A.4 JavaScript 与 Python 


JavaScript 是 一 种 向 网 页 添加 交互 与 功能 的 语言 ， 不 要 与 Java 混为一谈 。JavaScript 运行 在 
浏览 器 中 。Python 与 浏览 器 分 离 ， 运 行 在 计算 机 系统 上 。Python 有 大 量 库 ， 可 以 充实 数据 
分 析 的 功能 。JavaScript 具有 与 浏览 器 相关 的 额外 功能 。 你 可 以 利用 JavaScript 抓 取 网 络 数 
据 并 创建 图 表 ， 但 无 法 用 于 统计 汇总 。 


A.5 Node.js 与 Python 


Node.js 是 一 个 Web 平台 ， 而 Python 是 一 种 语言 。 有 许多 用 Python 编写 的 框架 与 Node. 
js 类 似 ， 像 Flask 和 Django， 但 Node.js 是 用 JavaScript 语言 编写 的 。Node.js 主要 用 的 是 
JavaScript， 所 以 你 可 以 用 JavaScript 作为 后 端 语言 。 如 果 你 后 端 用 的 是 Flask 或 Django， 
你 可 能 需要 学 习 JavaScript 来 处 理 前 端 需 求 。 但 本 书 大 部 分 内 容 针 对 的 都 是 后 端 过 程 和 大 
型 数据 处 理 过 程 。Python 更 方便 、 更 容易 学 习 ， 还 有 现成 的 数据 处 理 库 。 正 因为 这 一 点 ， 
我 们 选择 用 Python。 


A.6 Ruby 和 Ruby on Rails 与 Python 


你 可 能 听 说 过 Ruby on Rails， 这 是 基于 Ruby 语言 的 一 个 流行 的 Web 框架 。Python 也 有 许 
多 框架 : Flask、Django、Bottle、Pyramid 等 ，Ruby 也 经 常 不 用 于 Web 框架 。 我 们 之 所 以 
选择 Python， 是 因为 它 快 速 的 数据 处 理 能 力 ， 而 不 是 因为 它 的 Web 框架 能 力 。 我 们 的 确 
会 讲 到 数据 展示 ， 但 如 果 你 的 目标 是 创建 一 个 网 站 的 话 ， 那 么 你 不 应 该 阅读 本 书 。 
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附录 B 
初学 者 的 Python 学 习 资源 








本 附录 列 出 了 许多 适合 Python 开发 新 人 的 学 习 小 组 和 学 习 资 源 。 这 个 列表 并 不 全 面 ， 但 它 
介绍 了 许多 网 站 、 论 坛 、 聊 天 室 和 线 下 小 组 ， 在 你 追求 成 为 优秀 Python 开发 者 的 过 程 中 可 
以 访问 并 使 用 这 些 资 源 。 


B.1 在 线 资源 

。 Stack Overflow (http://stackoverflow.com/) 是 一 个 非常 有 用 的 网 站 ， 你 可 以 在 上 面 提问 
与 编程 和 Python 相关 的 问题 ， 查 看 其 他 人 的 问题 和 回答 并 给 出 自己 的 回答 。 这 个 网 站 
支持 在 问题 中 发 布 代 码 、 对 回答 点 赞 ， 还 可 以 在 已 经 问 过 的 大 量 问 题 中 搜索 。 如 果 你 在 
学 习 过 程 中 过 到 困难 ，Stack Overflow 上 的 某 个 答案 可 能 会 给 你 一 些 提 示 ! 

。 Python 官网 (http:/python.org/) 是 一 个 好 工具 ,用 来 深入 研究 开发 过 程 中 可 能 用 到 哪些 库 。 
如 果 你 对 Python 标准 库 中 的 某 些 原理 有 疑问 ， 或 者 不 知道 都 有 哪些 推荐 使 用 的 外 部 库 ， 
可 以 先 从 Python 官网 开始 查看 。 

。 Read the Docs (https://readthedocs.org/) 是 一 个 有 用 的 网 站 ,许多 Python 库 都 会 将 文档 
保存 在 这 里 。 如 果 你 想 寻找 某 个 库 的 更 多 使 用 方法 ， 可 以 在 这 个 网 站 上 查找 。 


B.2 ” 线 下 小 组 


PyLadies (http://www.pyladies.com/) 是 一 个 女性 工程 师 小 组 , 旨 在 推动 Python 的 多 样 性 。 
PyLadies 在 世界 各 地 都 有 分 会 ， 在 freenode 网 站 上 有 一 个 活跃 的 IRC 频道 ， 在 PyLadies 
网 站 上 还 有 大 量 的 研讨 会 和 其 他 有 用 工具 。 大 多 数 分 会 向 所 有 会 员 开 放 ， 但 要 看 当地 分 
会 的 线 下 聚会 是 否 要 求 特 定性 别 才能 参加 。 
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Boston Python (http://www.meetup.com/bostonpython/) 是 世界 上 最 大 的 Python 线 下 聚会 
之 一 。 这 个 小 组 由 一 个 知名 开发 者 和 教育 工作 者 组 成 的 动态 小 组 管理 , 帮助 组 织 研讨 会 、 
项 目 之 夜 ， 以 及 各 种 不 同 的 教育 话 动 。 如 果 你 在 波士顿 地 区 生活 ， 你 可 以 亲自 去 感受 一 
下 ! 

PyData (http://pydata.org/) 是 一 家 帮助 创建 Python 社区 和 数据 分 析 社 区 的 机 构 。 它 们 
在 世界 各 地 举行 线 下 聚会 和 大 型 会 议 ， 你 在 当地 可 能 也 会 找到 一 个 线 下 分 会 (或 者 你 也 
可 以 自己 创建 一 个 新 的 分 会 )。 

Meetup.com (http://www.meetup.com/) 是 许多 技术 相关 的 教育 活动 的 发 布 网 站 。 我 们 推 
荐 搜索 当地 与 Python 和 数据 相关 的 线 下 聚会 。 注 册 网 站 很 简单 ， 根 据 你 的 兴趣 找到 的 
新 线 下 聚会 将 会 向 你 发 送 提醒 ， 你 会 遇见 很 多 人 ， 他 们 和 你 一 样 都 对 Python 和 数据 感 
兴趣 。 

Django 女孩 (https://djangogirls.org/) 是 一 个 女性 工程 师 小 组 ， 旨 在 推动 利用 Python 大 
型 Web 开发 框架 Django 进行 Python 开发 。 世 界 各 地 有 许多 活跃 的 分 会 ， 提 供 各 种 研 
讨 会 和 培训 班 。 
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附录 C 
学 习 命令 生 





有 一 个 强大 的 开发 工具 ， 就 是 只 用 命令 行 来 控制 计算 机 的 能 力 。 无 论 你 用 的 是 哪 种 操作 系 
统 ， 人 懂得 直接 与 计算 机 交互 的 方法 ， 可 以 让 你 的 数据 处 理 任务 和 编程 任务 事半功倍 。 我 们 
并 不 是 说 你 要 成 为 系统 管理 员 ， 但 擅 于 通过 命令 行 来 控制 计算 机 是 很 有 用 的 。 
作为 一 名 开发 人 员 ， 最 有 成 就 感 的 事情 之 一 就 是 能 够 对 遇 到 的 系统 问题 和 代码 问题 进行 调 
试 。 通 过 命令 行 理 解 计算 机 的 运行 原理 ， 可 以 让 你 深入 理解 这 些 问 题 。 如 果 你 遇 到 了 系统 
错误 ， 并 使 用 本 书 学 到 的 调试 技巧 ， 你 可 能 会 更 了 解 自己 的 计算 机 和 用 到 的 操作 系统 ， 也 
更 了 解 如 何 用 命令 行 更 好 地 交互 。 在 Python 代码 中 遇 到 系统 错误 时 ， 你 就 会 在 调试 并 解决 
这 些 问 题 时 快 人 一 步 。 

本 附录 中 我 们 会 讲 到 bash (在 Mac 和 许多 Linux 上 使 用 ) 的 基础 知识 ， 也 会 讲 到 Windows 
上 cmd 和 PowerShell 程序 的 基础 知识 。 我 们 这 里 只 是 做 一 个 简要 的 介绍 ， 但 我 们 建议 你 继 
续 深 入 学 习 。 在 每 一 小 市 我 们 都 给 出 了 进一步 阅读 的 建议 。 


C.1 bash 


如 果 你 用 的 是 基于 bash 的 命令 行 ， 你 在 C.1.1 节 学 到 的 内 容 也 同样 适用 于 任意 基于 bash 
的 客户 端 ， 这 和 你 当前 使 用 的 操作 系统 无 关 。 太 酷 了 ! bash 是 一 种 功能 强大 的 shell 语言 
(或 命令 行 语言 )。 我 们 开始 学 习 bash， 首 先 来 看 如 何在 计算 机 中 浏览 文件 。 


C.1.1 跳 转 命令 


在 命令 行 中 浏览 计算 机 可 以 帮 你 理解 用 Python 如 何 做 到 这 一 点 。 停 留 在 终端 或 文本 编辑 器 
中 ， 可 以 让 你 保持 专注 。 
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我 们 首先 来 看 基本 命令 。 打 开 终 端 。 打 开 的 终端 可 能 会 位 于 ~ 文件 夹 ， 代 表 你 的 home 目 
录 。 如 果 你 用 的 是 Linux，home 目录 可 能 位 于 /<home/your_computer_name>。 如 果 你 用 的 
是 Mac，home 目录 可 能 位 于 /Users/<your_name>。 想 要 查看 你 所 在 的 文件 夹 ， 可 以 输入 : 




















pwd 
你 应 该 会 看 到 像 这 样 的 输出 : 
/Users/katharine 
或 者 像 这 样 : 
/home/katharine 


pwd 代表 “打印 工作 目录 ”(print working directory)。 你 让 bash 告诉 你 当前 所 在 的 文件 夹 
(或 目录 )。 如 果 你 是 第 一 次 学 习 用 命令 行 跳 转 ， 那 么 这 条 命令 很 有 用 ， 特 别 是 你 想 再 次 确 
认 自己 是 否 位 于 正确 的 文件 夹 中 时 。 

另 一 个 有 用 的 命令 用 来 查看 文件 夹 中 都 有 哪些 文件 。 想 要 查看 当前 工作 目录 中 都 有 哪些 文 
件 ， 输 入 : 























ts 
你 应 该 会 看 到 像 这 样 的 输出 : 
Desktop/ 
Documents/ 
Downloads/ 


my_doc.docx 





具体 内 容 可 能 会 有 所 不 同 ， 颜 色 也 可 能 不 同 ， 这 与 你 的 操作 系统 有 关 。1s 的 含义 是 “ 列 出 
清单 ”(list) 。 在 调用 ts 时 还 可 以 指定 额外 参数 ， 叫 作 标记 (fag)。 这 些 参数 会 改变 输出 
的 内 容 。 试 一 下 这 个 命令 : 

ls -l 


输出 应 该 有 许多 列 ， 最 后 一 列 与 只 输入 ts 的 输出 相同 。-! 标记 给 出 了 目录 的 详细 (长 ) 
内 容 ， 其 中 包括 所 包含 的 文件 和 目录 的 数目 ， 以 及 每 一 个 文件 和 目录 的 权限 、 创 建 者 的 名 
字 、 组 所 有 权 、 大 小 和 最 后 修改 日 期 。 下 面 给 出 一 个 实例 : 

drwxr-xr-x 2 katharine katharine 4096 Aug 20 2014 Desktop 


drwxr-xr-x 22 katharine katharine 12288 Jul 20 18:19 Documents 
drwxr-xr-x 26 katharine katharine 24576 Sep 16 11:39 Downloads 


这 些 细 市 可 以 帮 你 发 现 与 权限 有 关 的 问题 ， 还 可 以 查看 文件 大 小 和 其 他 信息 。 你 还 可 以 向 
ls 传 入 任意 目录 ， 它 都 可 以 列 出 里 面 的 内 容 。 试 着 查看 下 载 文件 夹 的 内 容 (输入 以 下 代 
码 ) : 


ls -Ll ~/Downloads 


你 会 看 到 与 前 面 类 似 的 很 长 的 输出 ， 但 列 出 的 是 Downloads 文件 夹 下 的 所 有 文件 和 目录 。 










































































类 


全 


现在 你 学 会 了 如 何 列 出 不 同文 件 夹 下 的 文件 ， 下 面 我 们 来 学 习 如 何 改变 当前 所 在 文 从 
我 们 利用 cd 命令 来 “改变 目录 ” (change directory) 。 试 着 输入 : 


cd ~/Downloads 


现在 用 pwd 查看 位 于 哪个 文件 夹 ， 用 ts 查看 文件 夹 中 的 文件 ， 你 应 该 会 发 现 正 位 于 
Downloads 文件 夹 下 。 如 果 你 想 回 到 主 文件 夹 的 话 ， 应 该 怎么 做 ? 我 们 知道 主 文件 夹 是 上 
一 级 文件 夹 。 你 可 以 用 .. 跳 转 到 上 一 级 文件 夹 。 试 着 输入 : 

Gd 3 


现在 你 回 到 了 主 文件 来。 在 bash 中 ，.. 的 意思 是 “ 跳 转 到 上 一 级 目录 ”。 你 还 可 以 连用 两 
次 ， 跳 转 到 上 两 级 目录 ， 像 这 样 : cd ee 


在 命令 行 中 跳 转 目录 或 选择 文件 时 ， 你 应 该 可 以 用 Tab 键 自动 补 全 文件 名 和 
文件 夹 名 。 对 于 你 想 选择 的 文件 或 文件 夹 ， 先 输入 名 字 的 第 一 个 字母 或 前 两 
个 字母 ， 然 后 只 需 按 下 Tab 键 ， 你 应 该 会 看 到 不 同 的 匹配 选择 〈 帮 你 完成 名 
字 的 拼写 )。 如 果 没 有 类 似 名 字 的 其 他 文件 ， 命 令 行 会 将 名 字 自 动 补 全 。 这 
个 方法 可 以 节省 很 多 打字 的 时 间 ! 


























现在 你 应 该 更 习惯 于 用 命令 行 来 跳 转 目录 。 下 面 我 们 将 学 习 如 何 用 命令 行 移 动 文件 和 修改 
文件 。 


C.1.2 修改 文件 
利用 bash 移动 文件 、 复 制 文件 和 创建 文件 都 很 简单 。 我 们 先 来 看 创建 新 文件 。 首 先 ， 跳 转 
到 home 目录 (cd ~)。 然 后 输入 下 列 内 容 : 

touch test file.txt 
然后 再 继续 输入 ts。 你 应 该 会 看 到 有 一 个 叫 作 test_file.txt 的 新 文件 。touch 可 以 用 来 创建 
新 文件 。 这 个 命令 会 寻找 叫 这 个 名 字 的 文件 。 如 果 有 这 个 文件 的 话 ， 会 改变 最 后 一 次 修改 
的 时 间 惟 ， 但 不 会 修改 文件 内 容 ， 如 果 文 件 不 存在 ， 会 创建 这 个 文件 。 





















































Atom shell 命令 


如 果 你 的 文本 编辑 器 是 Atom.io (https://atom.io/)， 你 可 以 利用 下 面 这 个 命令 轻松 将 这 
个 文件 (或 任何 文件 ) 用 Atom 打开 : 


atom test_file.txt 


如 果 报 错 的 话 ， 你 可 能 没有 安装 命令 行 选项 。 安 装 方法 是 : 按 Shift-Cmd-P 键 打开 命 
邻 面板 ， 然 后 运行 Install Shell Commands 命令 。 


想 要 查看 Atom 所 有 命令 行 选项 ， 可 以 输入 atom --help。 














对 于 之 前 创建 的 文件 ， 我 们 试 着 将 其 复制 到 下 载 文件 夹 中 : 
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cp test_file.txt ~/DownLoads 


这 里 我 们 的 意思 是 :“ 将 test_file.txt 复制 到 ~/Downloads 文件 夹 中 。”bash 知道 ~/Downloads 
是 一 个 文件 夹 ， 所 以 会 自动 将 文件 复制 到 那个 文件 夹 里 面 。 如 果 我 们 想 要 在 复制 文件 的 同 
时 改变 文件 名 ， 可 以 这 么 做 : 


cp test_file.txt ~/DownLoads/my_test_fiLe .txt 


这 个 命令 的 作用 是 让 bash 将 测试 文件 复制 到 下 载 文件 夹 中 ， 并 将 复制 后 的 文件 命名 为 my_ 
test_file.txt。 现 在 你 的 下 载 文 件 夹 中 应 该 有 测试 文件 的 两 份 副本 : 一 个 用 的 是 原来 的 名 字 ， 
一 个 用 的 是 新 名 字 。 




















如 果 你 需要 多 次 运行 同一 个 命令 ， 只 需 按 向 上 键 ， 在 命令 行 历史 中 查找 。 如 
果 你 想 查看 最 近 所 有 的 命令 行 历史 ， 可 以 输入 history。 








有 时 你 并 不 想 复制 文件 ， 而 是 想 要 移动 文件 或 重 命名 文件 。 在 bash 中 ， 我 们 可 以 用 同一 个 
命令 来 移动 文件 和 重 命名 文件 : mv。 我 们 首先 对 在 主 文件 夹 中 创建 的 文件 进行 重 命名 : 

mv test file.txt empty_file.txt 
这 里 我 们 告诉 bash:“ 将 名 为 test_file.txt 的 文件 移动 到 名 为 empty_file.txt 的 文件 。 输入 
ls， 你 应 该 会 看 到 已 经 没有 test_file.txt 了 ， 但 现在 有 一 个 empty_file.txt。 我 们 只 是 利用 
“移动 ”来 对 文件 重 命名 。 我 们 还 可 以 利用 mv 在 文件 夹 之 间 移 动 文件 : 

mv ~/Downloads/test file.txt . 
这 里 我 们 的 意思 是 :“ 将 下 载 文件 夹 中 的 test_file.txt 移动 到 这 里 。” 在 bash 中 ，. 代表 你 的 
工作 目录 (就 像 .. 代表 当前 目录 的 “上 一 级 ”文件 夹 一样 ) 。 现 在 输入 ls， 你 应 该 可 以 看 
到 主 文件 夹 中 又 有 一 个 test_file.txt 文件 了 。 你 还 可 以 输入 ls ~/Downloads， 现 在 这 个 文件 
已 经 不 在 下 载 文 件 夹 中 了 。 
最 后 ， 你 可 以 用 命令 行 删 除 文件 。 你 可 以 用 rm (remove) 命令 来 做 到 这 一 点 。 试 着 输入 : 

rm test file.txt 
现在 再 输入 tls， 你 会 发 现 test_file.txt 已 经 从 文件 夹 中 删 掉 了 。 

与 用 鼠标 删除 文件 不 同 ， 用 命令 行 删除 文件 是 真正 的 删除 。 没 有 “回收 站 ” 


可 以 恢复 文件 ， 所 以 使 用 mm 时 一 定 要 小 心 ， 对 你 的 计算 机 和 代码 一 定 要 定 
期 按时 备份 。 






































现在 你 知道 利用 bash 如 何 移动 、 重 命名 、 复 制 和 删除 文件 ， 下 面 我 们 继续 学 习 在 命令 行 中 
运行 文件 。 


C.1.3 ”运行 文件 


利用 bash 运行 文件 是 相当 简单 的 。 在 第 3 章 中 你 可 能 已 经 学 过 运行 Python 文件 ， 你 只 需 

















python my_file.py 








其 中 my_file.py 是 一 个 Python 文件 。 


对 于 编程 用 到 的 大 多 数 语 言 来 说 ， 只 输入 语言 的 名 字 (python、ruby、R) 
和 文件 名 (并 带 有 正确 的 文件 路 径 或 文件 位 置 ) 就 可 以 运行 。 如 果 你 在 用 
某 种 语言 运行 文件 时 遇 到 问题 ， 我 们 建议 以 语言 的 名 字 和 “命令 行 选 项 ” 
(command-line options) 为 关键 词 在 网 络 上 进行 搜索 。 























作为 一 名 Python 开发 者 ， 你 还 会 用 到 其 他 运行 命令 。 表 C-1 中 给 出 了 其 中 一 些 命令 ， 你 可 
以 先 了 解 一 下 ， 在 安装 和 运行 外 部 库 时 可 能 会 用 到 。 
表 C-1: bash 中 的 运行 命令 
命令 使 用 案例 更 多 文档 
sudo 以 sudo 或 (超级 ) 用 户 的 身份 运行 下 面 https://en.wikipedia.org/wiki/Sudo 
的 命令 。 在 修改 文件 系统 的 核心 部 分 或 
安装 外 部 包 时 通常 需要 用 到 sudo 


























bash 运行 bash 文件 ， 或 回 到 bash shell http://ss64.com/bash/ 

/configure ”运行 软件 包 的 配置 设 定 (从 源 代码 安装 https://en.wikipedia.org/wiki/GNU_build_ 
软件 包 的 第 一 步 ) system#GNU_Autoconf 

make 配置 完成 后 运行 makefile， 编 译 代码 准 http://www.computerhope.com/unix/umake.htm 


备 安装 (从 源 代 码 安装 软件 包 的 第 二 步 ) 
make install 运行 make 编译 好 的 代码 ， 将 软件 包 安 装 http://www.codecoffee.com/tipsforlinux/articles/27. 
到 计算 机 中 (从 源 代码 安装 软件 包 的 第 html 
三 步 ) 
wget 访问 URL， 并 下 载 URL 里 包含 的 文件 http://www.gnu.org/software/wget/manual/wget.html 
(适用 于 下 载 软件 包 或 文件 ) 
chown 改变 文件 或 文件 夹 的 所 有 权 。 通 常 与 http://linux.die.net/man/1/chown 
chgrp 一 起 使 用 ， 用 来 改变 文件 的 所 属 群 
组 。 如 果 你 需要 移动 文件 让 另 一 个 用 户 












































可 以 运行 这 些 文件 ， 那 么 这 个 命令 是 很 
有 用 的 
chmod 改变 文件 或 文件 夹 的 权限 ， 通 常 是 使 文件 http://ss64.com/bash/chmod.html 











可 执行 ， 或 对 另 一 类 用 户 或 用 户 组 可 见 

在 使 用 命令 行 的 过 程 中 ， 你 可 能 会 遇 到 其 他 各 种 各 样 的 命令 和 文档 。 我 们 建议 你 花 点 时 间 
去 学 习 、 使 用 并 提问 。bash 是 一 种 不 同 的 语言 ， 需 要 慢 慢 去 学 习 它 的 特点 和 用 法 。 最 后 ， 
我 们 要 向 你 介绍 利用 bash 来 搜索 文件 或 文件 内 容 。 


C.1.4 利用 命令 行进 行 搜 索 
在 bash 中 ， 搜 索 文件 和 在 文件 内 搜索 都 相对 简单 ， 也 有 很 多 种 方法 。 我 们 将 向 你 展示 几 种 
方法 。 首 先 ， 我 们 将 会 用 一 个 命令 搜索 文件 中 的 文本 。 我 们 先 用 wget 下 载 一 个 文件 : 
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wget http://corpus.byu.edu/glowbetext/samples/text.zip 


这 应 该 会 下 载 一 个 文本 语料库 ， 我 们 可 以 在 里 面 搜索 。 将 文本 解压 到 一 个 新 文件 来， 只 
输入 : 


mkdir text_samples 
unzip text.zip text_samples/ 


现在 在 新 文件 夹 text_samples 中 应 该 有 许多 文本 语料库 文件 。 输 入 cd text_samples 切换 到 
这 个 目录 中 。 我 们 利用 一 个 叫 作 grep 的 工具 来 搜索 这 些 文件 的 内 容 : 


grep snake *.txt 


这 里 的 命令 是 告诉 bash， 在 这 个 文件 夹 所 有 以 .txt 结尾 的 文件 中 搜索 字符 串 snake。 在 
7.2.6 节 可 以 学 到 更 多 关于 通配符 的 内 容 ， 但 * 几乎 总 可 以 用 作 通 配 符 ， 意 思 是 “任意 匹配 
的 字符 串 ”。 

运行 上 面 的 命令 ， 你 应 该 会 se grep 会 返回 所 有 匹配 文件 中 包含 目 
0 比如 当 你 要 修改 某 个 函数 ， 想 在 一 个 很 大 的 仓库 中 找到 包含 这 个 函数 
的 文件 时 ， 这 一 命令 特别 有 用 。 如 果 你 想 打印 出 前 后 的 几 行 ， 还 可 以 向 grep 传人 额外 的 参 
数 和 选项 




















想 查 看 任意 bash 命令 的 选项 ， 只 需 先 输入 该 命令 ， 然 后 输入 空格 和 - -hetLp 
即 可 。 输 入 grep --hetp， 然 后 阅读 grep 的 一 些 额 外 选项 和 特性 。 











另 一 个 简洁 的 工具 是 cat。 它 只 是 打印 出 你 指定 的 文件 内 容 。 这 个 命令 很 有 用 ， 特 别 是 

要 将 输出 内 容 通过 “管道 ”(pipe) 传递 到 其 他 地 方 时 。 在 bash 中 ，| 字符 可 以 将 你 ,希望 对 
文件 或 文本 执行 的 一 系列 操作 合并 在 一 起 。 例 如 ， 我 们 将 其 中 一 个 文件 的 内 容 cat 出 来 ， 
然后 用 grep 在 输出 中 搜索 : 


cat w_gh_b.txt | grep network 
首先 返回 的 是 w_gh_b.txt 文件 的 所 有 文本 ， 然 后 通过 “管道 ”将 输出 传递 给 grep， 然 后 在 
其 中 搜索 单词 network 并 在 命令 行 中 返回 包含 该 词 的 文本 行 
我 们 还 可 以 对 bash 历史 记录 做 同样 的 管道 操作 。 试 着 输入 : 

history | grep mv 
这 一 命令 可 以 帮 你 找到 在 学 习 bash 的 过 程 中 用 过 的 命令 并 复 用 ， 你 可 能 已 经 不 记得 这 些 命 
令 了 。 


我 们 来 进一步 学 习 搜索 ， 学 习 如 何 查找 文件 。 首 先 ， 我 们 将 用 到 一 个 叫 作 find 的 命令 ， 
用 来 查找 匹配 的 文件 名 ， 还 可 以 遍历 所 有 子 目录 并 查找 匹配 的 文件 。 我 们 在 当前 文件 夹 及 
其 子 文件 夹 中 找 出 所 有 文本 文件 : 


find . -name "*.txt" -type f 


一 命令 的 作用 是 ，( 在 这 个 文件 夹 及 其 所 有 子 文件 夹 中 ) 寻找 相应 的 文件 ， 文 件 名 以 .txt 





























结尾 ， 文 件 类 型 为 f (标准 文件 ， 而 不 是 目录 ， 目 录 的 类 型 符号 为 d)。 你 应 该 会 看 到 输出 
许多 匹配 的 文件 名 。 下 面 ， 我 们 将 这 些 文件 通过 管道 传递 给 grep 命令 : 

find . -name "*.txt" -type f | xargs grep neat 
这 里 我 们 让 bash 做 的 是 ,“ 找 到 与 上 面相 同 的 文本 文件 ， 然 后 在 这 些 文件 中 搜索 单词 
neat”。 我 们 用 到 了 xargs 命令 (https://en.wikipedia.org/wiki/Xargs)， 这 样 才 能 将 find 的 输 
出 通过 管道 正确 地 传递 给 grep。 不 是 所 有 的 管道 操作 都 需要 用 到 xargs， 但 当 find 命令 的 
输出 结果 不 完全 相同 时 ， 这 一 命令 十 分 有 用 。 
你 已 经 学 会 搜索 和 查找 的 一 些 实用 技巧 ， 特 别 是 你 要 处 理 的 代码 和 项 目 越 来 越 庞大 、 越 来 
越 复杂 时 ， 这 些 技巧 尤其 有 用 。 关 于 这 一 话题 ， 我 们 还 为 你 提供 了 更 多 资源 和 阅读 材料 。 


C.1.5 更 多 资源 


在 互联 网 上 有 许多 优秀 的 bash 学 习 资 源 (http://wiki.bash-hackers.org/scripting/tutoriallist) 。 
Linux 文档 计划 (http://www.tldp.org/LDP/Bash-Beginners-Guide/html/) 中 也 有 许多 适合 初 
学 者 的 优秀 教程 ， 里 面 会 讲 到 一 些 高 级 的 bash 编程 知识 。O?Reilly 出 版 了 一 本 很 棒 的 
bash Cookbook (http://shop.oreilly.com/product/9780596526788.do)， 你 也 可 以 用 这 本 
书 开 始 学 习 。 


C.2 Windows cmd/PowerShell 


Windows 命令 行 (现在 再 加 上 PowerShell，https://en.wikipedia.org/wiki/Windows_PowerShell)， 
或 者 叫 cmd， 是 一 个 功能 强大 的 基于 DOS 的 程序 。 在 不 同 版 本 的 Windows 和 Windows 服务 
器 中 ， 语 法 是 完全 相同 的 。 无 论 你 学 的 是 Python 还 是 其 他 语言 ， 学 会 这 些 语法 都 可 以 让 你 
成 为 一 个 更 加 优秀 的 程序 员 。 


C.2.1 跳 转 命令 
用 cmd 浏览 文件 非常 简单 。 首 先 打 开 cmd 程序 查看 当前 目录 。 输 入 : 
echo %cd% 


这 个 命令 的 作用 是 ， 告 诉 cmd 你 想 要 返回 (或 输出 ) %cd%， 即 当前 目录 (current directory)。 
你 应 该 会 看 到 像 这 样 的 输出 : 


C:\Users\Katharine> 


想 列 出 当前 目录 的 所 有 文件 ， 输 入 以 下 代码 : 
























































dir 

你 应 该 会 看 到 类 似 这 样 的 输出 : 
13.03.2015 16:07 <DIR> .ipython 
11.09.2015 19:05 <DIR> Contacts 
11;09..2015. 19:05 <DIR> Desktop 
11.09.2015 19:05 <DIR> Documents 
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11.09.2015 19:05 <DIR> Downloads 


11.09.2015 19:05 <DIR> Favorites 
10.02.2014 15:15 <DIR> Intel 
11.09.2015 19:05 <DIR> Links 
11.09.2015 19:05 <DIR> Music 
11.09.2015 19:05 <DIR> Pictures 
13.03.2015 16:26 <DIR> pip 
11.09.2015 19:05 <DIR> Saved Games 


dir 也 有 许多 可 用 的 选项 (http://ss64.com/nt/dir.html)， 可 以 排序 、 分 组 或 显示 更 多 信息 。 
我 们 来 看 一 下 Desktop 文件 夹 。 

dir Desktop /Q 
我 们 让 cmd 显示 Desktop 目录 中 的 所 有 文件 ， 以 及 这 些 文件 的 所 有 者 。 你 应 该 会 看 到 文件 
名 的 前 半 部 分 是 每 个 文件 的 所 有 者 (比如 MY-LAPTOP\Katharine\backupPDF)。 在 查看 文件 
夹 和 文件 时 这 一 命令 非常 有 用 。 还 有 许多 好 用 的 选项 ， 可 以 显示 子 文件 夹 ， 或 者 按 最 后 一 
次 修改 的 时 间 礁 排序 。 
输入 下 列 代 码 跳 转 到 Desktop 文件 夹 ; 

chdir Desktop 
现在 输入 echo %cd% 查看 当前 目录 ， 你 应 该 会 发 现 与 之 前 的 不 同 。 想 跳 转 到 上 一 级 文件 夹 ， 
只 需 输入 ..。 例 如 ， 如 果 我 们 想 跳 转 到 当前 目录 的 上 一 级 文件 夹 ， 可 以 输入 : 

chdir 。， 
你 还 可 以 把 多 个 “上 一 级 文件 夹 ”符号 连 起 来 (chdir ..\.. 可 以 跳 转 到 上 两 级 文件 夹 ， 
以 此 类 推 )。 根 据 你 的 文件 结构 不 同 ， 如 果 当 前 文件 夹 没 有 上 一 级 目录 的 话 ， 你 可 能 会 得 
到 一 个 错误 (比如 你 位 于 文件 系统 的 根 目录 下 )。 
想 返 回 home 目录 ， 只 需 输入 : 

chdir %HOMEPATH% 
你 应 该 回 到 了 我 们 开始 所 在 的 第 一 个 文件 夹 。 现 在 我 们 可 以 用 cmd 在 目录 间 跳 转 ， 下 面 我 
们 继续 学 习 创 建 、 复 制 和 修改 文件 。 


C.2.2 修改 文件 
首先 ， 我 们 来 创建 一 个 可 用 于 修改 的 新 文件 : 
echo "my awesome file" > my_new file.txt 


用 dir 查看 文件 夹 中 的 文件 ， 现 在 你 应 该 可 以 看 到 my_new_file.txt。 在 文本 编辑 器 中 打开 
这 个 文件 ， 你 可 以 看 到 文件 里 面 写 的 是 “my awesome fle”。 如 果 你 用 的 是 Atom， 你 可 以 
在 cmd 中 直接 打开 Atom (参见 C.1.2 节 )。 

有 了 这 个 文件 ， 我 们 试 着 将 其 复制 到 一 个 新 文件 夹 中 : 


Copy my_new_file.txt Documents 





















































现在 用 下 列 命令 列 出 Documents 文件 夹 中 所 有 文件 : 
dir Documents 
我 们 应 该 会 看 到 ， 已 经 将 my_new_file.txt 成 功 复制 到 这 里 。 
你 可 以 用 Tab 键 自 动 补 全 文件 名 和 路 径 ， 简 化 输入 。 试 着 输入 copy my， 然 


后 按 Tab 键 。cmd 应 该 能 够 猜 出 你 想 输 入 的 是 my_new_file.txt 文件 ， 自 动 补 
全 文件 名 。 


我 们 还 想 移动 文件 或 重 命 名 文件 。 想 用 cmd 移动 文件 ， 我 们 可 以 用 move 命令 。 试 着 输入 : 
move Documents\my_new_file.txt Documents\my_newer_file.txt 

如 果 现 在 列 出 Documents 目录 下 的 文件 ， 你 应 该 会 发 现 没 有 my_new_file.txt 了 ， 只 有 一 个 

my_newer_file.txt。move 可 用 于 重 命名 文件 (正如 上 面 我 们 所 做 的 那样 ) 或 者 移动 文件 或 

文件 夹 。 

最 后 ， 你 可 能 想 要 删除 不 需要 的 文件 。 想 用 cmd 做 到 这 一 点 ， 你 可 以 用 del 命令 。 试 着 输 

入 : 


























del my_new_file.txt 
现在 查看 当前 文件 夹 下 的 文件 ， 你 应 该 看 不 到 my_new_file.txt 了 。 注 意 ， 这 个 命令 会 完 
全 删除 文件 。 只 有 在 你 完全 不 需要 这 个 文件 时 才能 用 这 个 命令 。 定 期 做 硬盘 备份 是 很 有 用 
的 ， 以 防 出 现任 何 问题 。 
我 们 已 经 学 过 了 修改 文件 ， 下 面 我 们 来 学 习 如 何在 cmd 中 运行 文件 。 


C.2.3 运行 文件 
想 要 在 Windows cmd 中 运行 文件 ， 通 常 需要 输入 语言 的 名 字 ， 然 后 输入 文件 路 径 。 例 如 ， 
想 运行 一 个 Python 文件 ， 你 需要 输入 : 
python my_file.py 
只 要 my_file.py 位 于 同一 文件 夹 下 ， 就 会 运行 这 个 文件 。 只 需 在 cmd 中 输入 .exe 文件 的 全 
名 和 路 径 ， 然 后 按 Enter 键 ， 就 可 以 运行 这 个 文件 。 
与 安装 Python 一 样 ， 你 需要 检查 安装 好 的 可 执行 文件 的 安装 包 和 文件 路 径 是 
否 包 含 在 Path 变量 中 (详情 可 查阅 1.2.2 节 )。 这 个 变量 为 cmd 保存 许多 可 
执行 字符 串 。 









































想 了 解 更 多 强大 的 命令 行 运行 命令 ， 我 们 推荐 学 习 Windows PowerShell 一 一 一 种 强大 的 脚 
本 语言 ， 用 来 编写 脚本 并 用 简单 的 命令 行 来 运行 这 些 脚 本 。 计 算 机 世界 (Computerworld) 
有 一 篇 很 好 的 PowerShell 入 门 文章 (http:/www.computerworld.com/article/2512066/microsoft- 
windows-introduction-to-windows-powershelLhtml) 6 
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想 要 在 命令 行 中 运行 安装 好 的 程序 ， 你 可 以 使 用 start 命令 。 试 着 输入 : 
start "" "http://googLe.com" 


这 个 命令 应 该 会 打开 你 的 默认 浏览 器 ， 然 后 跳 转 到 Google 首页 。 更 多 内 容 可 查阅 start 命 


令 的 文档 (https://www.microsoft.conm/resources/documentation/windows/xp/all/proddocs/en-us/ 








start.mspx?mfr=true) 6 
我 们 已 经 学 习 了 用 命令 行 如 何 和 运行 文件 ， 下 面 研究 如 何 搜索 和 查找 计算 机 中 的 文件 和 文 
件 夹 。 


C.2.4 利用 命令 行进 行 搜索 


首先 下 载 一 个 可 用 的 语料库 。 如 果 你 用 的 是 Windows Vista 或 更 新 的 版 本 ， 你 应 该 能 够 运 
行 PowerShell 命令 。 试 着 输入 下 列 命 令 来 加 载 PowerShell: 


powershell 


你 应 该 会 看 到 类 似 这 样 的 新 提示 符 : 


Windows PowerShell 








ps C:\Users\Katharine> 
现在 我 们 已 经 进入 了 PowerShell， 我 们 来 下 载 一 个 用 于 查找 的 文件 (注意 ， 这 两 行 命令 应 
该 在 同一 行 中 输入 ， 被 分 成 两 行 是 为 了 适应 页 面 宽度 ) : 


Invoke-WebRequest -OutFile C:\Downloads\text.zip 
http://corpus.byu.edu/glowbetext/samples/text.zip 


如 果 你 安装 的 PowerShell 不 是 3.0 版 或 更 高 版 本 ， 上 面 这 个 命令 会 报错 。 如 果 有 报错 的 话 ， 
尝试 输入 下 面 这 个 命令 ， 可 适用 于 更 早 版 本 的 PowerShell， 


(new-object System.Net.NebCLient).DownLoadFiLe( 
'http://corpus.byu.edu/glowbetext/samples/text.zip','C:\Downloads\text.zip') 


这 些 命令 是 用 PowerShell 将 一 个 单词 语料库 下 载 到 计算 机 中 。 我 们 创建 一 个 新 目录 ， 可 以 
将 解压 后 的 文件 放 在 里 面 : 

mkdir Downloads\text_examples 
现在 我 们 要 向 PowerShell 中 添加 一 个 新 函数 ， 用 来 提取 压缩 的 文件 。 输 入 下 列 命令 : 


Add-Type -AssembLyName System.I0.Compression.FileSystem 
function Unzip 


{ 

















param([string]$zipfile, [string]$outpath) 


[System.10.Compression.ZipFile]::ExtractToDirectory($zipfile, $outpath) 
} 


定义 好 了 这 个 函数 ， 我 们 可 以 用 它 来 解压 文件 。 试 着 将 下 载 内 容 解 压 到 新 文件 夹 中 : 


Unzip Downloads\text.zip Downloads\text examples 











输入 exit 就 可 以 退出 PowerShell。 提 示 符 应 该 会 变 回 cmd 的 标准 提示 符 。 输 入 dir 
Downloads\text_examples， 你 应 该 会 看 到 许多 下 载 好 的 语料库 文本 文件 。 我 们 用 findstr 
在 这 些 文件 中 查找 : 


findstr "neat" DownLoads\text_exampLesNx* .txt 


你 应 该 会 看 到 控制 台中 滚动 输出 了 许多 文本 。 它 们 是 包含 单词 neat 的 文本 文件 中 的 匹配 
行 。 

有 时 你 想 搜 索 特 定 的 文件 名 ， 而 不 是 文件 中 的 字符 串 。 你 可 以 用 dir 命令 加 一 个 过 滤器 
(filter) 来 做 到 这 一 点 : 


dir -r -filter "*.txt" 


这 应 该 会 找 出 主 文件 夹 下 所 有 子 文件 夹 中 的 .txt 文件 。 如 果 你 需要 继续 在 这 些 文件 中 搜索 ， 
可 以 使 用 管道 操作 。| 字符 可 以 将 第 一 个 命令 的 输出 通过 管道 传递 给 下 一 个 命令 。 比 如 说 ， 
我 们 可 以 用 管道 找到 包含 特定 函数 名 的 所 有 Python 文件 ， 或 找到 包含 特定 国家 名 称 的 所 有 
CSV 文件 。 我 们 试 一 下 ， 将 findstr 的 输出 通过 管道 传递 给 find 命令 : 


findstr /s "snake" *.txt | find /i "snake" /c 


这 上段 代码 的 作用 是 ， 首 先 找 出 包含 单词 snake 的 文本 文件 ， 然 后 利用 find 计算 单词 snake 
在 这 些 文件 中 出 现 的 次 数 。 可 以 看 出 ， 学 习 更 多 cmd 命令 及 其 用 法 将 有 助 于 大 大 简化 数据 
处 理 人 员 和 开发 人 员 的 很 多 任务 ， 如 搜索 文件 、 运 行 代码 、 管 理工 作 等 。 关 于 这 一 话题 ， 
本 附录 介绍 了 一 些 内 容 ， 你 可 以 在 此 基础 上 深 入 学 习 。 


C.2.5 更 多 资源 


想 要 学 习 如 何 将 cmd 用 于 日 常 编程 和 数据 处 理工 作 ， 有 许多 可 以 查找 cmd 命令 的 优秀 在 
线 资 源 (http:/ss64.comy/nty ) 。 


如 果 你 想 学 习 更 多 PowerShell 的 知识 ， 以 及 如 何 用 PowerShell 创建 强大 的 脚本 并 用 于 
Windows 服务 器 和 计算 机 ， 可 以 阅读 一 些 教程 ， 如 微软 的 Getting Started with PowerShell 3.0 
教 程 (https://mva.microsoft.com/en-us/training-courses/getting-started-with-powershell-30-jump- 
start-827631=r54IrOWy_2304984382)。 你 还 可 以 参考 OReilly 出 版 的 Windows PowerShell 
Cookbook (http://shop.oreilly.com/product/0636920024132.do) 开始 编写 你 的 第 一 个 脚本 。 
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附录 D 
高 级 Python 设 置 





在 本 书 的 前 文中 ， 我 们 创建 了 系统 Python。 为 什么 呢 ?” 因 为 它 使 用 起 来 快速 简单 。 在 开始 
使 用 更 加 复杂 的 库 和 工具 时 ， 你 可 能 会 需要 一 个 更 加 高 级 的 设置 。 机 器 上 高 级 的 Python 设 
置 在 你 组 织 项 目 时 是 很 有 帮助 的 。 在 你 需要 同时 运行 Python 2.7 和 Python 3+ 时 ， 一 个 高 
级 设置 也 很 有 帮助 。 

在 本 附录 中 ， 我 们 会 带 你 用 专家 模式 设置 Python 环境 。 因 为 这 里 涉及 很 多 依 

赖 ， 所 以 指南 中 的 部 分 内 容 与 你 的 经 验 不 符 是 完全 有 可 能 的 。 为 了 解决 这 些 
问题 ， 我 们 建议 你 去 互联 网 寻找 或 询问 如 何 继续 。 











我 们 会 首先 安装 一 些 核心 工具 ， 之 后 安装 Python (2.7， 但 是 你 也 可 以 安装 3+)。 最 后 ， 我 
们 会 安装 和 设置 一 些 虚 拟 环境 ， 独 立 出 项 目 ， 这 样 你 可 以 对 每 一 个 项 目 使 用 不 同 版 本 的 
Python 库 。 


本 附录 中 的 指南 覆盖 Mac、Windows 和 Linux。 随 着 你 阅读 每 一 个 步 又， 仔细 跟随 你 的 特 
定 操作 系统 的 指令 。 


D.1 第 1 步 : 安装 GCC 


GCC (GNU Compiler Collection，GNU 编译 器 集合 ) 的 目的 是 将 用 Python 编写 的 代码 转 
换 为 机 器 可 以 理解 的 东西 一 一 字 节 码 。 


在 Mac 上 ，GCC 包含 在 Xcode (https://developer.apple.com/xcode/) 和 命令 行 工 具 (https:// 
developer.apple.com/downloads/) 中 。 你 需要 下 载 其 中 的 任意 一 个 。 但 是 对 于 这 两 个 方式 ， 
你 都 会 需要 一 个 Apple ID (http://bit.ly/create_appleid) 用 于 下 载 。 同 样 ，Xcode 需要 花费 
一 些 时 间 从 互联 网 上 下 载 (我 下 载 了 20 分 钟 ) ， 所 以 可 以 计划 休息 一 下 。 如 果 你 关心 时 间 
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或 内 存 的 使 用 ， 选 择 命令 行 工 具 取 代 Xcode。 安 装 Xcode 或 命令 行 工具 不 会 花费 太 长 的 时 
间 。 在 继续 安装 Homebrew 之 前 ， 确 保 Xcode 或 命令 行 工具 已 经 安装 。 

如 果 你 正在 使 用 Windows，Jeff Preshing 写 了 一 个 关于 安装 GCC 的 很 有 帮助 的 教程 
(http://preshing.com/20141108/how-to-install-the-latest-gcc-on-windows/)。 如 果 你 正在 使 用 
Linux，GCC 安装 在 绝 大 多 数 基于 Debian 的 操作 系统 上 ， 或 者 你 可 以 通过 运行 sudo ap- 
get install build-essential 安装 它 。 


D.2 第 2 步 : (只 在 Mac 上 ) 安装 Homebrew 


Homebrew 管理 Mac 系统 上 的 包 ， 这 意味 着 你 可 以 输入 命令 ，Homebrew 会 在 安装 中 帮 
助 你 。 























安装 Homebrew 之 前 ， 确 保 已 经 安装 Xcode 或 命令 行 工具 。 否 则 ， 你 会 在 安 
装 Homebrew 时 遇 到 错误 。 





为 了 安装 Homebrew， 打 开 控制 台 ， 输 入 这 行 代码 (跟随 任何 出 现 的 提示 ， 包 括 请 求 允 许 
安装 Homebrew 的 权限 ) : 

$ ruby -e "$(curL -fsSL https://raw.github.com/Homebrew/homebrew/go/install)" 
注意 命令 的 输出 。Homebrew 建议 运行 brew doctor 检查 并 对 任何 安装 中 的 问题 给 出 警告 。 
根据 你 系统 状态 的 不 同 ， 你 可 能 有 很 多 需要 追查 的 问题 。 如 果 你 没有 收 到 警告 ， 那 么 继续 
下 一 个 步骤 。 


D.3 第 3 步 : (Mac 系 统 ) 告诉 系统 去 哪里 寻找 
Homebrew 


为 了 使 用 Homebrew， 你 需要 告诉 系统 它 位 于 哪里 。 为 此 ， 添 加 Homebrew 到 .bashrc 文 
件 ， 或 者 你 正在 使 用 的 其 他 shell ( 即 ， 如 果 你 有 一 个 自 定义 的 shell， 需 要 在 这 里 添加 
它 )。.bashrc 文件 可 能 在 系统 中 还 不 存在 ， 如 果 它 存在 的 话 ， 会 隐藏 在 home 目录 里 。 
在 你 输入 ts 命令 时 ， 所 有 文件 名 以 一 个 “.” 开 始 的 文件 是 不 会 显示 的 ， 除 非 你 明确 地 请 
求 显 示 所 有 文件 。 这 一 做 法 的 目的 有 两 面 性 。 首 先 ， 如 果 文 件 是 不 可 见 的 ， 你 就 更 不 可 能 
错误 地 删除 或 编辑 它们 。 甚 次， 这些 文件 类 型 并 不 经 常 使 用 ， 所 以 隐藏 它们 使 得 系统 外 观 
更 清晰 。 

让 我 们 看 一 下 ， 在 通过 给 ls 命令 添加 额外 的 命令 ， 展 示 所 有 的 文件 后 ， 我 们 目录 的 样子 。 
确保 你 正 位 于 home 目录 中 ， 然 后 输入 下 面 的 命令 : 


$ ls -ag 
你 的 输出 会 看 起 来 类 似 于 : 
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total 56 
drwxr-xr-x+ 17 
drwxr-xr-x 5 


TW sass 1 

PW=F==F==@. 1 
drwx------ 8 

TW------- 1 
drwx------ 4 
drwx------ 所 要 
drwx------ + 3 
drwx------ + 10 
drwx------ @ 43 
drwx------ + 3 
drwx------ 示 怠 
drwx------ + 3 


drwxr-xr-x+ 5 


的 文件 ， 


$ cp .bashrc .bashrc_bkup 


为 了 创建 一 个 .bashrc 


staff 
admin 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 
staff 


文件 ， 


578 
170 
3 
12292 
272 
389 
136 
170 
102 
340 
1462 
102 
102 
102 
170 





Jun 
May 
May 
May 
Jun 
Jun 
Jun 
Jun 
May 
Jun 
Jun 
May 
May 
May 
May 


22 
29 
29 
29 
10 
22 
10 
22 
29 
11 
10 
29 
29 
29 
29 


00: 
09: 
09: 
09: 
00: 
00: 
00: 
00: 
09: 
23 : 
00 : 
09 : 
09 : 
09 : 
09: 


我 们 没有 .bashrc 文件 ， 所 以 需要 创建 一 个 。 


如 果 你 有 .bashrc 文件 ， 需 要 备份 一 个 ， 
一 个 .bashrc 的 副本 非常 简单 。 直 接 
.bashrc_bkup: 


08 . 
49 .. 
.CFUserTextEncoding 
.DS_Store 


49 
44 
45 
07 
35 
08 
49 
47 
29 
49 
49 
49 
49 


.Trash 


.bash_history 
Applications 
Desktop 
Documents 
Downloads 
Library 


Movies 
Music 


Pictures 


Public 


运行 下 面 的 命令 来 复 人 


证 























。 如 果 有 ， 
如 果 没 有 的 话 ， 那 么 你 需要 创建 它 。 


会 出 现在 


以 防 发 生 任 何 问题 。 通 过 命令 行 创建 
所 .bashrc 到 一 个 新 

















首先 需要 确认 我 们 拥有 一 个 .bash_profile 文件 。 如 果 我 们 添加 
了 一 个 .bashrc 文件 ， 而 没有 .bash_profile， 计 算 机 不 会 知道 拿 这 个 文件 做 什么 。 


在 开始 之 前 ， 先 检查 一 下 我 们 是 否 有 .bash_profile 文 位 
产生 的 目录 列表 中 。 


ls -ag 命令 


如 果 你 有 一 个 .bash_profile 文件 ， 需 要 将 它 备 份 ， 这 样 如 果 有 任何 问题 ， 可 


以 恢复 至 原始 的 设置 。 


名 为 .bash_bkup: 


人 


怒 们 


$ cp ~/.bash_profile ~/.bash_profile_bkup 


文件 ， 那 么 使 用 它 ”。 


这 个 命令 来 复制 它 





# Get the aliases and functions 
if [ -f ~/.bashrc ]; then 


. ~/.bashrc 
fi 


如 果 还 没有 .bash_profile 文件 ， 


蕊 到 桌面 ， 同 时 重新 命名 它 


p ~/.bash_profile ~/Desktop/bash_profile 


如 果 你 正在 使 用 一 个 已 存在 的 .bash_profile 文件 ， 启 动 编辑 器 
版 本 的 文件 。 添 加 下 面 的 代码 到 文件 末尾 。; 


， 打 开 你 复制 

















下 面 的 命令 来 复制 .pash_profile 到 一 个 新 的 文件 ， 


I 桌面 的 那个 





这 段 代 码 的 意思 是 “如 果 这 里 存在 一 个 .bashrc 


你 需要 在 编辑 器 中 用 这 


文 些 内 容 


创建 一 个 新 文件 。 保 存 文件 
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到 桌面 ， 命 名 为 bash_profile， 开 头 没有 句号 。 


确保 你 检查 了 home 目录 下 不 存在 .bash_profile 和 .bashrc 文件 。 如 果 它 们 存 
在 的 话 ， 确 保 跟 随 指 引 在 继续 之 前 创建 原始 文件 的 备份 。 如 果 没 有 做 这 些 的 
话 ， 当 执行 下 面 的 命令 时 ， 你 可 能 重 写 原 始 文件 ， 这 可 能 引发 问题 。 























在 回 到 控制 台 ， 运 行 下 面 的 命令 来 重 命名 文件 ， 并 且 从 桌面 移动 到 home 目录 : 

$ mv ~/Desktop/bash_profile .bash_profile 
在 ， 如 果 运 行 ls -al ~/， 你 会 在 home 目录 中 看 到 一 个 .bash_profile 文件 。 如 果 执 行 
more .bash_profile， 你 会 看 到 代码 调用 了 .bashrc。 


现在 有 了 一 个 .bashrc_profile 文件 ， 引 用 .bashrc 文件 ， 让 我 们 编辑 .pashrc 文件 。 首 先 在 文 
本 编辑 器 中 打开 当前 的 .pashrc 文件 或 一 个 新 文件 。 添 加 下 面 的 代码 到 .bashrc 文件 的 末尾 。 
这 会 在 设置 中 添加 Homebrew 的 位 置 到 你 的 SPATH 变量 。 新 的 path 会 比 老 的 $PATH 优先 级 
更 高 : 


export PATH=/usr/LocatL/bin:/usr/LocaL/sbin:SPATH 


现在 ,保存 这 个 文件 到 桌面 ， 命 名 为 bashrc， 没 有 句号 。 

















当 
































为 你 的 代码 编辑 器 使 用 命令 行 快捷 键 
我 们 在 .bashrc 文件 中 更 新 设置 时 ， 创 建 一 个 快捷 方式 来 从 命令 行 工具 启动 代码 编辑 
器 。 这 不 是 必需 的 ， 但 是 会 使 浏览 文件 目录 和 在 代码 编辑 器 中 打开 文件 更 简单 。 使 用 
你 的 GUI 来 浏览 文件 不 会 像 这 样 有 效 。 
如 果 你 正在 使 用 Atom， 在 安装 了 Atom 后 ， 你 已 经 有 了 可 用 的 快捷 方式 和 shell 命令 


(https://discuss.atom.io/t/open-file-project-from-terminal-command-line/1305) 。Sublime 同样 
有 在 OSX 上 可 用 的 命令 (https://www.sublimetext.com/docs/2/0sx_command_line.htm!l) 6 


如 果 正 在 使 用 其 他 的 代码 编辑 器 ， 你 可 以 尝试 输入 程序 名 称 来 看 它 是 否 启 动 ， 或 者 输 
入 程序 名 和 --help 来 看 它 是 否 具 有 命令 行 帮助 。 我 们 同样 建议 搜索 “< 你 的 程序 名 称 > 
命令 行 工 具 ”， 来 看 是 否 有 任何 有 帮助 的 结果 。 

















回 到 控制 台 ， 运 行 下 面 的 命令 来 重 命 名 文件 ， 并 且 将 它们 从 桌面 移动 到 你 的 home 目录 : 


$ mv ~/Desktop/bashrc .bashrc 


























这 时 ， 如 果 你 运行 ls -al ~/， 你 会 看 到 home 目录 中 有 .bashrc 文件 和 一 个 .bash_profile 文 
件 。 让 我 们 通过 在 控制 台中 打开 一 个 新 的 窗口 来 检验 $PATH 变量 。 为 了 检验 这 个 变量 ， 运 
行 下 面 的 命令 : 
$ echo SPATH 
你 会 得 到 像 下 面 这 样 的 输出 : 
/usr/local/bin: /usr/local/sbin: /usr/bin:/bin:/usr/sbin:/sbin:/usr/local/biin 
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无 论 输出 是 什么 ， 你 会 看 到 变量 的 信息 (/usr/tLocaL/bin:/usr/LocaL/sbin) 添加 到 了 我 们 
的 .bashrc 文件 中 ， 突 出 了 返回 值 。 


如 果 你 没有 在 变量 中 看 到 新 的 值 ， 确 保 你 打开 了 一 个 新 的 窗口 。 设 置 的 改变 不 会 加 载 到 当 
前 的 终端 窗口 ， 除 非 你 明确 地 应 用 文件 到 当前 的 终端 [查看 bash source (http://ss64.com/ 
bash/source.html) 命令 获取 更 多 的 信息 ]。 


D.4 第 4 步 : 安装 Python 2.7 


为 了 在 Mac 上 安装 Python 2.7， 运 行 下 面 的 命令 : 


$ brew install python 


如 果 你 想 要 跟 进 Python 3+， 你 可 以 安装 它 。 在 Mac 上 安装 Python 3+， 运 行 : 

$ brew install python3 
对 于 Windows， 你 需要 跟随 第 1 章 中 的 指引 ， 正 确 地 通过 Windows 安装 程序 安装 。 对 于 
Linux， 很 可 能 你 已 经 安装 了 Python。 在 Linux 中 ， 通 过 安装 一 些 Python 开发 者 包 (http:// 
stackoverflow.com/questions/6230444/how-to-install-python-developer-package) 来 安装 一 些 额 
外 的 工具 是 好 的 想法 。 
在 完成 所 有 的 操作 后 ， 测 试 它 是 否 工 作 正 常 。 
在 终端 启动 你 的 Python 解释 器 : 

$ python 
然后 ， 运 行 下 面 的 代码 : 

import sys 


import pprint 
pprint.pprint(sys.path) 


Mac 输出 看 起 来 类 似 这 样 : 


>>> pprint.pprint(sys.path) 















































'/usr/local/lib/python2.7/site-packages/setuptools-4.0.1-py2.7.egg', 
'/usr/local/lib/python2.7/site-packages/pip-1.5.6-py2.7.egg', 
'/usr/local/Cellar/python/2.7.7_1/Frameworks/Python.framework/Versions/ 
2.7/lib/python27.zip', 
'/usr/local/Cellar/python/2.7.7_1/Frameworks/Python.framework/Versions/ 
2.7/Lib/python2.7' ， 

'/Library/Python/2.7/site-packages', 
'/usr/local/lib/python2.7/site-packages'] 


如 果 正 在 使 用 Ds 你 收 到 的 输出 应 该 有 很 多 以 /usr/local/Cellar/ 开头 的 文件 路 径 。 如 果 没 
有 看 见 它 ， 你 可 能 没有 在 控制 台 窗口 重新 加 载 设 置 。 关 闭 窗口 ， 再 打开 一 个 新 的 窗口 ， 重 
新 尝试 一 次 。 如 果 这 没有 解决 过 寸 程 中 出 现 的 任何 问题 ， 返 回 到 设置 的 最 开始 ， 重 新 执行 步骤 。 


调试 安装 错误 是 一 个 学 习 与 积累 经 验 的 过 程 。 如 果 你 遇 到 了 在 本 市 中 没有 描述 的 错误 ,在 
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浏览 器 中 打开 你 最 喜欢 的 搜索 引擎 ， 搜 索 这 个 错误 。 你 可 能 不 是 第 一 个 经 历 该 问题 的 人 。 
如 果 你 成 功 完成 了 本 节 内 容 ， 请 继续 下 一 步 。 


D.5 第 5 步 : 安装 virtualenv (Windows、 


Mac、Linux ) 


我 们 已 经 设置 了 第 二 个 Python 实例 ， 但 是 现在 我 们 想 要 设置 一 种 创建 独立 的 Python 环境 
的 方式 。 通 过 隔离 不 同 的 项 目 和 依赖 ，virtualenv 可 以 帮助 我 们 达到 这 个 目的 。 如 果 有 多 
个 项 目 ， 我 们 可 以 确保 每 个 需求 间 没 有 冲突 。 

为 了 安装 virtualenv， 我 们 需要 Setuptools (http://pythonhosted.org//setuptools/)。 3 装 完 
Python，Setuptools 也 就 跟着 安装 了 。Setuptools 的 一 部 分 是 名 为 pip 的 命令 行 工 具 ， 我 们 
使 用 它 来 安装 Python 包 。 

为 了 安装 virtualenv (http://virtualenv.readthedocs.org/en/latest/)， 在 命令 行 中 运行 下 面 的 


命令 : 











$ pip install virtualenv 


在 运行 这 个 命令 后 ， 输 出 的 一 部 分 应 该 为 : Successfully installed virtualenv。 如 果 你 得 到 这 
个 信息 ， 那 么 所 有 事情 运行 良好 。 如 果 没 有 ， 那 么 你 有 其 他 需要 解决 的 问题 ， 可 以 在 网 络 
上 搜索 ， 寻求 帮助 。 


D.6 第 6 步 : 创建 一 个 新 目录 


在 继续 之 前 ， 让 我 们 创建 一 个 目录 ， 来 维护 项 目 相 关 的 内 容 。 根 据 个 人 喜好 确定 位 置 。 为 
便于 访问 和 备份 ， 大 多 数 人 在 用 户 home 目录 中 创建 文件 夹 。 你 可 以 将 目录 放 在 任何 你 喜 
欢 的 既 有 用 又 好 记 的 地 方 。 在 Mac 系统 上 ， 要 在 home 目录 中 创建 一 个 Projects 文件 夹 ， 
可 在 终端 运行 下 面 的 命令 : 


$ mkdir ~/Projects/ 


或 者 对 于 Windows: 

> mkdir C:\Users\_your_name_\Projects 
之 后 在 该 文件 夹 中 创建 一 个 文件 夹 ， 来 保存 我 们 编写 的 数据 处 理 代码 。 在 Mac 上 ， 你 可 以 
通过 运行 下 面 的 命令 达到 这 个 目的 : 

$ 


mkdir ~/Projects/data_wrangling 
$ mkdir ~/Projects/data_wrangling/code 


对 于 Windows， 使 用 下 面 的 代码 : 


> mkdir C:\Users\ your_name_\Projects\data wrangling 
> mkdir C:\Users\ your_name_\Projects\data _ wrangling\code 
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最 后 ， 人 home 目录 中 添加 一 个 隐藏 文 件 夹 ， 在 virtualenv 环境 中 使 用 。 在 Mac 上 使 用 下 
面 的 命令 : 


$ mkdir ~/ .envs 








对 于 Windows 运行 下 面 的 命令 
> mkdir C:\Users\ your_name_\Envs 

如 果 你 想 要 在 Windows 中 隐藏 文件 夹 ， 可 以 通过 在 命令 行 中 编辑 属性 做 到 
> attrib +s +h C:\Users\ your_name_\Envs 

要 取消 隐藏 ， 可 以 直接 去 除 属性 : 


> attrib -s -h C:\Users\_your_name_\Envs 


这 时 ， 如 果 我 们 查看 Projects 文件 夹 的 内 容 ， 应 该 会 看 到 两 个 空 的 子 文件 夹 ， 名 为 code 和 


enVvsSo。 




















D.7 第 7 步 : 安装 virtuaLenvwrapper 


virtualenv 是 一 个 很 棒 的 工具 , 但 是 virtualenvwrapper (http://virtualenvwrapper.readthedocs.org/ 
en/latest/) 让 virtualenv 更 易于 访问 和 使 用 。 然 而 它 有 很 多 特性 (https://virtualenvwrapper. 
readthedocs.io/en/latest/#features) 没有 在 这 个 附录 中 提 到 ， 其 中 最 强大 的 特性 也 是 最 简单 的 
特性 之 一 。 
它 需要 一 个 类 似 下 面 的 命令 : 

source $PATH_TO_ENVS/example/bin/activate 
将 其 变 成 这 样 : 


workon example 


























D.7.1 安装 virtualenvwrapper (Mac 和 Linux) 


在 Mac 和 Linux 上 安装 virtualenvwrapper ， 运 行 下 面 的 命 今 : 

















$ pip install virtualenvwrapper 


检查 输出 的 倒数 第 二 行 ， 确 保 所 有 的 安装 正确 。 对 我 来 说 ， 这 行 代码 的 意思 是 成 功 地 安装 

了 virtualenvwrapper virtualenv-clone stevedore。 

更 新 你 的 .bashrc 

你 同样 需要 添加 一 些 设置 到 .bashrc 文件 中 。 我 们 会 复制 文件 ， 编 辑 它 ， 然 后 将 它 放 回 原来 

的 位 置 。 

首先 ， 创 建 一 个 .pashrc 文件 的 备份 。 如 果 已 经 有 了 一 份 ， 你 可 以 跳 过 这 个 步骤 。 如 果 你 从 

一 个 新 文件 开始 ， 你 会 创建 .bashrc 文件 的 第 一 个 备份 。 为 了 完成 这 件 事 ， 输 入 下 面 的 命令 : 
$ cp ~/.bashrc ~/.bashrc_bkup 
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各 三 GitHub 上 存储 了 设置 文件 (https://github.com/jackiekazil/dotfiles)， 这 样 我 

总 是 有 一 个 可 用 的 备份 。 在 我 犯 了 错误 或 者 计算 机 死机 的 时 候 ， 我 总 是 可 以 恢 

当 你 不 断 调整 文件 ， 产 生 20 个 备份 时 ， 确 保 home 文件 夹 不 会 产生 混 
。 你 很 少 会 编辑 .bashrc 文件 ， 但 是 在 编辑 这 类 文件 之 前 ， 要 备份 它们 。 



































使 用 编辑 器 打开 .bashrc 文件 ， 在 文件 末尾 添加 下 面 三 行 代 码 。 如 果 你 没有 为 Projects 文件 
夹 使 用 相同 的 位 置 ， 你 需要 相应 地 调整 文件 的 路 径 : 
export WORKON_HOME=$HOME/ .envs 


0 
export PROJECT_HOME=$HOME/Projects/ © 
source /usr/LocaL/bin/virtuaLenvwrapper .sh © 














@ 定义 WORKON_HOME 变量 。 这 是 存储 Python 环境 变量 的 地 方 。 这 应 该 与 你 之 前 创建 的 环境 
文件 夹 匹配 。 

@ 定义 PROJECT_HOME 变量 。 这 是 你 存储 代码 的 地 方 。 这 应 该 与 你 之 前 创建 的 Projects (或 
linux 项 目 ) 文件 夹 匹配 。 

@ 初始 化 virtualenvwrapper ， 它 i 上 virtualenv 更 容易 使 用 。 


完成 后 ， 保 存 文件 并 打开 一 个 新 的 终端 窗口 来 加 载 新 的 设置 。 现 在 你 就 有 了 一 个 易于 使 用 
的 带 有 虚拟 环境 的 命令 集 。 











D.7.2 ”安装 virtualenvwrapper-win (Windows) 


对 于 Windows 系统 ， 有 一 些 额 外 的 可 选 步骤 会 让 你 更 轻松 。 首 先 ， 你 需要 安装 Windows 
版 本 的 virtualenvwrapper (https://pypi.python.org/pypi/virtualenvwrapper-win)。 你 同样 可 以 
通过 运行 下 面 的 命令 完成 这 件 事 : 


>pip install virtualenvwrapper-win 














你 同样 需要 添加 WORKON_HOME 环境 变量 。 默 认 情 况 下 ，virtuaLenvwrapper 会 希望 你 在 User 
文件 夹 下 有 一 个 名 为 Env 的 文件 夹 。 如 果 你 ` 想 要 为 虚拟 环境 设置 自己 的 文件 夹 ， 那 就 设置 
吧 ， 然 后 添加 WORKON_HOME 变量 ， 设 置 为 合适 的 文件 路 径 。 如 果 你 在 之 前 没有 设置 过 环境 
变量 ， 需 要 一 个 快速 的 指南 ， 在 Stack Overflow 上 有 一 个 很 棒 的 教程 (https://superuser.com/ 


questions/284342/what-are-path-and-other-environment-variables-and-how-can-i-set-or-use-them ) 。 
为 了 在 Windows 上 与 多 个 版 本 的 Python 一 起 工作 ， 安 装 pywin (https:// 


github.com/davidmarble/pywin) 也 是 一 个 很 好 的 想法 ;这 便于 你 在 不 同 版 本 
的 Python 间 切 换 。 


















































D.7.3 测试 你 的 虚拟 环境 (Windows、Mac、Linux) 


在 圆满 完成 这 一 市 之 前 ， 让 我 们 运行 一 些 济 试 程序 来 确保 一 切 正 常 工作 。 在 一 个 新 的 控制 
台 窗 口中 ,创建 一 个 新 的 虚拟 环境 ， 名 为 test: 


mkvirtualenv test 
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你 的 输出 应 该 看 起 来 类 似 这 样 : 


New python executable in test/bin/python2.7 

Not overwriting existing python script test/bin/python (you must use 
test/bin/python2.7) 

Installing setuptools, pip...done. 





如 果 你 想 要 使 用 Python 3+ 创建 环境 ， 而 不 是 Python 2.7， 那 么 你 要 定义 
python 变量 ， 使 其 指向 Python 3。 首 先 ， 定 义 Python 3 实例 的 位 置 : 














which python3 
你 的 输出 应 该 看 起 来 类 似 这 样 : 
/usr/LocaL/bin/python3 
现在 ， 在 你 的 mkvirtualenv 命令 中 使 用 它 来 定义 Python 3+ 环境 : 
mkvirtualenv test --python=/usr/local/bin/python3 
你 应 该 会 看 到 “(test)” 添 加 到 了 探 制 台 提示 的 开端 。 这 意味 着 环境 现在 已 经 激活 。 


如 果 你 的 输出 为 -bash: mkvirtualenv: command not found， 那 么 你 的 控制 台 
没有 识别 出 virtualenvwrapper。 首 先 ， 检 查 并 确认 在 运行 这 段 代码 前 打开 了 
新 的 控制 台 或 cmd 窗口， 这 确保 新 的 设置 被 应 用 。 如 果 这 不 是 问题 ， 那 么 浏 
览 整个 过 程 并 确认 跟随 了 所 有 的 步骤 。 














如 有 果 你 成 功 地 创建 了 虚拟 环境 ， 那 么 你 完成 了 设置 ! 
让 我 们 禁用 虚拟 环境 并 摧毁 它 ， 因 为 这 只 是 一 个 测试 。 运 行 下 面 的 命令 来 移 除 test 环境 : 


deactivate 
rmvirtualenv test 


这 时 ， 你 已 经 在 机 器 上 设置 了 第 二 个 Python 实例 。 你 还 有 了 一 个 可 以 创建 独立 的 Python 
实例 的 环境 ， 可 以 在 不 同 的 项 目 间 做 保护 。 现 在 我 们 会 运行 一 些 练 习 ， 使 你 熟悉 革新 的 
Python 环境 。 


D.8 学 习 我 们 的 新 环境 (Windows、Mac、Linux) 
这 里 展示 的 例子 是 面向 Mac 的 ， 但 是 过 程 与 Windows 和 Linux 上 是 相同 的 。 在 这 一 节 中 ， 
我 们 会 学 习 一 些 关 于 如 何 使 用 设置 并 确保 所 有 的 组 件 一 起 工作 的 知识 。 


让 我 们 通过 创建 一 个 名 为 testprojects 的 新 环境 开始 。 我 们 会 在 任何 需要 一 个 快速 的 环境 来 
练习 测试 或 做 其 他 事情 时 ， 激 活 并 使 用 它 。 运 行 下 面 的 命令 来 创建 它 : 


$ mkvirtualenv testprojects 
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创建 环境 后 ， 你 会 看 到 控制 台 提 示 的 前 面 添加 了 环境 名 称 。 对 我 来 说 ， 像 下 面 这 样 : 


(testprojects)Jacquelines-MacBook-Pro:~ jacquelinekazil$ 


让 我 们 安装 一 个 gn 库 到 环境 中 。 我 们 会 安装 的 第 一 个 库 称 为 tpython。 在 你 的 微 活 环 
境 中 ， 运 行 下 面 的 命令 : 


(testprojects) $ pip install ipython 


如 果 这 个 命令 是 成 功 的 ， 那 么 你 输出 的 最 后 几 行 看 起 来 像 下 面 这 样 : 


Installing collected packages: ipython, gnureadline 
Successfully instaLLed ipython gnureadline 
Cleaning up... 


现在 ， 如 果 你 输入 pip freeze 到 控制 台 ， 会 看 到 当前 环境 的 库 ， 同 时 还 有 每 个 安装 的 版 本 
号 。 输 出 会 类 似 下 面 这 样 : 
gnureadline==6.3.3 


ipython==2.1.0 
wsgiref==0.1.2 


这 些 输 出 告诉 我 们 ， 0 环境 中 ， 我 们 安装 了 3 个 库 : gnureadline、ipython 和 
wsgiref。ipython 是 我 们 刚刚 安装 的 库 。gnureadLine 是 在 安装 ipython 时 安装 的 库 ， 因 为 
这 是 一 个 依赖 库 。( 这 让 你 和 很 好 ， 不 是 吗 ? ) 第 三 个 库 是 
wsgiref。 它 默认 存在 ， 但 是 不 是 必需 的 。 

所 以 我 们 已 经 安装 了 一 个 叫 ipython 的 库 ， 但 是 我 们 可 以 用 它 做 些 什 么 呢 ? IPython 是 一 
个 易于 使 用 的 Python 默认 解释 器 的 替代 (你 可 以 在 附录 下 中 读 到 更 多 关于 IPython 的 信 
息 )。 为 了 启动 Python ， 直 接 输入 ipython。 

你 会 看 到 类 似 下 面 的 输入 提示 : 


ENO 3.1.0 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython's features. 
et -> Quick reference. 






























































help -> Python's own help system. 
object? -> Details about 'object', use 'object??' for extra details. 
In [4]: 

















对 其 进行 测试 ， 输 入 下 面 命令 : 
In [1]: import sys 
In [2]: import pprint 
In [3]: pprint.pprint(sys.path) 


你 应 该 会 看 到 与 我 们 确认 环境 工作 时 相同 的 输出 。sys 和 pprint 是 标准 库 模 块 ， 打 包 在 
0， 


有 两 种 方法 退出 IPython。 你 可 以 按 下 Ctrl+D， 在 提示 时 输入 y (yes)， 或 者 只 是 输入 
quit()。 它 的 工作 方式 同 默认 的 Python shell 一 样 。 
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一 旦 你 退出 了 ， 你 会 回 到 命令 行 。 现 在 我 们 有 了 一 个 叫 testprojects 的 环境 ， 有 3 个 库 已 经 
安装 。 但 是 如 果 我 们 致力 于 其 他 项 目 ， 想 要 有 另 一 个 环境 呢 ? 首先 ， 输 入 下 面 的 命令 禁用 
当前 的 环境 : 




















$ deactivate 


之 后 创建 一 个 新 的 叫 作 sandbox 的 环境 : 


$ mkvirtualenv sandbox 


完成 之 后 ， 你 会 进入 新 环境 。 如果 输入 pip freeze， 你 会 看 到 这 个 环境 还 没有 安装 
IPython。 因 为 这 是 一 个 全 新 的 环境 ， 与 testprojects 环境 完全 分 离 。 如 果 我 们 在 这 个 环境 中 
安装 Python， 它 会 在 计算 机 上 安装 第 二 个 实例 。 这 保证 我 们 在 一 个 环境 中 所 做 的 任何 事 
不 会 影响 其 他 的 环境 。 

为 什么 它 很 重要 ? 随 着 新 项 目的 进行 ， 你 会 想 安 装 不 同 的 库 以 及 不 同 版 本 的 库 。 我 们 建议 
为 本 书 创建 一 个 虚拟 环境 ， 但 是 如 果 你 启动 了 一 个 新 的 项 目 ， 你 会 想 要 创建 一 个 新 的 虚拟 
环境 。 正 如 你 所 见 ， 随 着 项 目的 切换 ， 在 不 同 的 环境 中 切换 是 很 容易 的 。 

有 时 候 ， 你 可 能 会 碰 到 所 有 依赖 都 存储 在 一 个 名 为 requirements.txt 文件 中 的 仓库 。 库 作者 
使 用 虚拟 环境 和 ptp freeze 来 保存 列表 ， 这 样 用 户 可 以 安装 库 和 依赖 。 从 requirements 文 
件 安装 包 ， 你 需要 运行 ptp install -r requirements .txt。 

我 们 知道 如 何 创建 和 禁用 环境 ， 但 是 我 们 不 知道 如 何 激活 一 个 已 经 存在 的 环境 。 为 了 
激活 我 们 名 为 sandbox 的 样 例 环境 ， 输入 下 面 的 命令 (如果 你 已 经 在 其 中 了 ， 需 要 先 
deactivate 它 ， 来 看 有 什么 区 别 ) : 


$ workon sandbox 
最 后 ， 你 如 何 摧毁 一 个 环境 呢 ? 首先 ， 确 保 你 不 在 想 要 删除 的 环境 中 。 如 果 你 键入 了 


workon sandbox， 那 么 你 应 该 在 sandbox 环境 中 了 。 为 了 删除 它 ， 首 先 你 需要 禁用 它 ， 然 
后 移 除 它 : 


$ deactivate 
$ rmvirtualenv sandbox 


现在 ， 你 唯一 应 该 拥有 的 环境 为 testprojects。 


D.9 高 级 设置 回顾 


你 的 计算 机 现在 已 经 设置 好 ， 可 以 运行 高 级 Python 库 。 在 与 命令 行 交互 和 安装 包 时 ， 你 应 
该 感到 很 舒服 。 如 果 你 还 不 是 很 熟练 ， 我 们 同样 建议 你 查看 附录 C 来 学 习 更 多 使 用 命令 行 
的 知识 。 


表 D-1 列 出 了 你 在 虚拟 环境 中 最 常用 的 命令 。 
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表 D-1: 回顾 命令 








命令 动作 

mkvirtualenv 创建 一 个 环境 
rmvirtualenv 移 除 一 个 环境 
workon 激活 一 个 环境 
deactivate 禁用 当前 活跃 的 环境 


pip install 

pip uninstall 

pip freeze 

a 如 果 没 有 环境 是 活跃 的 ， 库 
系统 Python 不 会 受到 影响 。 

b 见 前 一 条 脚注 。 








会 被 安装 














FA 





返 





在 活跃 环境 中 安装 包 ” 
在 一 个 活跃 的 环境 











P 仓 载 包 " 


回 一 个 活跃 环境 中 已 安装 库 的 列表 





出 


| 


你 系统 上 Python 的 





鳃 一 个 吾 


向 一 | 国 


1 本 上 ， 它 通过 Homebrew 


已 壮 


女 衣 。 


你 的 
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附录 E 
python 陷阱 








同 你 学 习 的 其 他 语言 一 样 ，Python 也 有 它 的 怪癖 和 特点 。 甚 中 一 些 特点 是 脚本 语言 共有 
的 ， 如 果 你 有 脚本 语言 的 经 验 ， 可 能 不 会 感到 惊 诈 。 其 他 的 特点 是 Python 独 有 的 。 我 们 总 
结 了 其 中 一 些 特点 ， 但 并 不 完全 ， 所 以 你 可 以 自己 去 了 解 更 多 。 我 们 希望 本 附录 可 以 帮助 
你 调试 代码 ， 也 能 让 你 了 解 Python 行为 方式 的 原因 。 


E.1 空白 


可 能 你 已 经 注意 到 ，Python 使 用 空白 作为 代码 结构 的 一 部 分 。 空 白 被 用 来 缩 进 函数 、 方 法 

和 类 ， 去 执行 if-else 语句 ， 创 建 持续 的 代码 行 。 在 Python 中 ， 空 白 是 一 种 特殊 的 操作 符 ， 

能 帮助 转化 Python 代码 为 可 执行 的 代码 。 

下 面 是 Python 文件 中 空白 的 一 些 最 佳 实践 。 

。 不 要 使 用 tab， 使 用 空格 。 

。 对 于 每 一 个 缩 进 块 ， 使 用 4 个 空格 。 

。 为 悬挂 式 缩 进 选 择 一 种 好 的 缩 进 策略 〈 可 以 通过 一 个 分 隔 符 、 一 个 额外 的 缩 进 或 一 个 
单个 缩 进 对 齐 ， 但 是 必需 选用 可 读 性 和 实用 性 最 好 的 方式 ， 参 见 PEP-8，https://www. 
python.org/dev/peps/pep-0008/#indentation ) 。 








PEP-8 〈 或 Python 增强 方案 #8) 是 一 个 Python 风格 指南 ， 给 出 了 缩 进 的 最 
佳 实践 ， 并 针对 如 何 命名 变量 、 代 码 行 换 行 、 格 式 化 代码 提出 了 建议 ， 让 代 
码 可 读 、 易 于 使 用 、 易 于 分 享 。 





如 果 你 的 代码 没有 正确 地 缩 进 ， 并 且 Python 不 能 解析 你 的 文件 ， 你 会 得 到 一 个 
IndentationError。 错 误 信 息 会 告诉 你 哪 一 行 代码 没有 正确 缩 进 。 在 你 最 喜欢 的 文本 编辑 
器 中 设置 Python 的 语法 提示 器 是 相当 简单 的 ， 以 便 在 你 工作 时 自动 检查 你 的 代码 。 举 个 例 
子 ， 对 于 Atom， 有 一 个 很 棒 的 PEP-8 提示 器 (https://atom.io/packages/linter-python-pep8)。 
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E.2 ”可怕 的 GIL 


GIL (Global ee Lock， 全 局 解释 器 锁 ) 是 Python 解释 器 用 于 一 次 只 用 一 个 线程 执 
行 代码 的 一 种 机 制 。 这 意味 着 当 你 运行 Python 脚本 时 ， 即 使 上 在 一 台 多 进程 机 器 上 ， 你 的 
代码 也 会 线性 执行 。 0 Python 可 以 通过 C 代码 快速 地 运行 ， 但 是 
仍然 是 线程 安全 的 。 


GIL 给 Python 带 来 的 限制 意味 着 在 标准 解释 器 中 ，Python 从 来 不 会 真正 地 并 行 化 。 这 对 
于 一 些 高 IO 的 应 用 程序 ， 或 者 严重 依赖 多 重 处 理 的 应 用 程序 来 说 ， 是 一 个 劣势 。: 有 些 
Python 库 通 过 使 用 多 重 处 理 或 异步 服务 ”, 规避 了 这 些 问 题 , 但 是 它们 没有 改变 GIL 仍然 存 
在 的 事实 。 


即便 如 此 ， 有 很 多 Python 核心 开发 者 意识 到 由 GIL 带 来 的 问题 ， 还 有 它 的 好 处 。 在 GIL 
成 为 开发 痛 点 的 情况 下 ， 通 常 有 不 错 的 应 对 方案 ， 而 且 根据 你 的 需要 ， 还 有 用 C 以 外 的 其 
他 语言 编写 的 其 他 解释 器 可 用 。 如 果 你 发 现 GIL 成 为 了 代码 中 的 一 个 问题 ， 很 可 和 E 你 可 以 
重新 架构 你 的 代码 ， 或 利用 一 个 不 同 的 代码 基 (例如 Node.js) 来 满足 你 的 需求 。 


E.3 =、== 与 is， 以 及 何 时 只 是 复制 


在 Python 中 ， 看 似 相 似 的 函数 间 有 一 些 重大 区 别 。 我 们 已 经 了 解 了 一 些 ,但 是 让 我 们 重新 
看 一 下 一 些 代码 和 输出 (使 用 IPython) : 


In [1]:a=1@ 
































In [2]: 1 == 1 所 
Out[2]: True 


In [3]: 1 is 1@© 
Out[3]: True 


In [4]:ais 1@ 
Out[4]: True 


In [5]: b= [] 


In [6]: [] == [] 
Out[6]: True 


In [7]: [] is [] 
Out[7]: False 


In [8]: b is [] 
Out[8]: False 





注 1: 关于 GIL 可 视 化 的 更 多 信息 ,查看 David Beazley 的 “一 个 可 缩放 、 可 交互 的 Python 线程 可 视 化 ”(http:// 
www.dabeaz.com/GIL/gilvis/) 。 

注 2: 关于 这 些 包 的 功能 ， 查 看 Jeff Knupp 关于 如 何 减轻 GIL 问题 影响 的 文章 (https://www.jeffknupp.com/ 
blog/2013/06/30/pythons-hardest-problem-revisited/) 。 
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@ 设置 变量 a 为 1。 

名 检查 1 是 否 等 于 1。 

四 检查 1 是 否 与 1 是 相同 的 对 象 。 
@ 检查 a 是 否 与 1 是 相同 的 对 象 。 


如 果 在 IPython 中 执行 这 些 代码 (这样 你 可 以 看 到 类 似 于 这 里 展示 的 输出 )， 你 会 注意 到 
一 些 有 趣 的 、 可 能 意外 的 结果 。 对 于 一 个 整数 ， 我 们 看 到 很 容易 通过 多 种 方式 来 确定 相 
。 然 而 对 于 列表 对 象 ， 我 们 发 现 is 与 其 他 比较 操作 符 表现 得 不 同 。 在 Python 中 ， 内 存 
里 操作 不 同 于 其 他 语言 。 在 Sreejith Kesavan 的 博客 上 (http://foobarnbaz.com/2012/07/08/ 
understanding-python-variables/) ， 有 一 篇 使 用 可 视 化 技术 的 文章 ， 讨 论 了 Python 如何 管理 
内 存 中 的 对 象 。 


为 了 从 另外 一 个 视角 观察 ， 让 我 们 看 一 下 对 象 内 存 的 位 置 ; 


In [9]: a = 1 





























于 疲 














In [10]: id(a) 
Out[10]: 14119256 


In [11]:b=a@ 


In [12]: id(b) @ 
Out[12]: 14119256 


In [13]: a=2 


In [14]: id(a) © 
Out[14]: 14119232 


| 


IN [161® de) 
Out[16]: 140491313323544 


In [17]: b = < 


In [18]: id(b) @ 
Out[18]: 140491313323544 


In [19]: c.append(45) 


In [20]: id(c) © 
Out[20]: 140491313323544 
@ 将 a 赋值 给 b。 
@ 当 在 这 里 使 用 id 方法 时 ， 我 们 发 现 b 和 a 都 使 用 了 内 存 中 相同 的 位 置 ， 也 就 是 说 ， 它 
们 在 内 存 中 是 相同 的 对 象 。 
@ 当 在 此 时 调用 i 方法 时 ， 我 们 发 现 a 在 内 存 中 拥有 了 新 的 地 址 。 这 个 地 址 现在 保存 着 值 2。 
@ 在 列表 中 ， 可 以 看 到 我 们 在 赋值 后 ， 列 表 拥 有 与 赋值 对 象 相同 的 id。 
@ 当 改变 这 个 列表 时 ， 我 们 发 现 我 们 不 能 改变 内 存 中 的 位 置 。Python 列表 表现 得 与 整数 和 
字符 串 略 有 不 同 。 
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这 里 ， 我 们 的 目的 不 是 让 你 对 Python 中 的 内 存 分 配 有 深入 的 理解 ， 而 是 意识 到 我 们 可 能 不 
会 总 是 去 思考 我 们 到 底 赋值 了 什么 。 在 处 理 列表 和 字典 时 ， 我 们 需要 知道 和 理解 的 是 ， 在 
我 们 将 它 赋 值 为 一 个 新 变量 的 时 候 ， 新 的 变量 和 旧 的 变量 仍然 是 内 存 中 的 相同 对 象 。 如 
我 们 改变 其 中 一 个 ， 也 改变 了 另 一 个 。 如 果 只 想 要 改变 其 中 一 个 或 另 一 个 ， 或 者 需要 创建 
一 个 新 对 象 作为 对 象 的 副本 ， 需 要 使 用 copy 方法 。 


让 我 们 通过 最 后 一 个 示例 来 解释 copy 与 赋值 : 


In [21]:a= 人 



































洱 




















In [22]: id(a) 
Out[22]: 140491293143120 


In [23]:b=a 


In [24]: id(b) 
Out[24]: 140491293143120 


In [25]: a[l'test'] = 1 


In [26]: b ©@ 
Out[26]: {'test': 1} 


In [27]: c = b.copy() 四 


In [28]: id(c) © 
Out[28]: 140491293140144 


in L291 Etest 2 这 


In [30]: < 四 
Out[30]: {'test': 1, 'test 2': 2} 


In [31]: b 日 
Out[31]: {'test': 1} 

@ 在 这 行 代码 中 ， 我 们 看 到 ， 当 我 们 修改 a 时， 同样 修改 了 b， 因 为 它们 存储 在 内 存 中 相 
同 的 位 置 。 

如 使 用 copy 方法 我 们 创建 了 一 个 新 的 变量 ，c， 这 是 第 一 个 字典 的 副本 。 

绅 这 行 代码 中 ， 我 们 看 到 copy 创建 了 一 个 新 的 对 象 。 它 有 一 个 新 的 id。 

@ 在 修改 了 <c 之后， 我 们 看 到 它 现在 保存 着 两 个 键 和 值 。 

@ 即使 在 c 修改 之 后 ， 我 们 看 到 b 仍然 是 相同 的 。 


在 最 后 这 个 示例 中 ， 很 显然 ， 如 果 你 真 的 想 要 一 个 字典 或 列表 的 副本 ， 需 要 使 用 copy 方 
法 。 如 果 你 想 要 相同 的 对 象 ， 那 么 可 以 使 用 =。 类 似 地 ， 如 果 你 想 要 知道 两 个 对 象 是 不 是 
“相等 的 "， 可 以 使 用 ==， 但 是 如 果 你 想 知道 它们 是 否 是 相同 的 对 象 ， 则 使 用 is。 


E.4 默认 函数 参数 
有 时 你 会 想 要 传递 默认 变量 到 你 的 Python 函数 和 方法 中 。 为 此 ， 你 需要 充分 理解 Python 
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何 时 以 何 种 方式 调用 这 些 方法 。 让 我 们 看 一 下 : 


def add_one(default_list=[]): 
default_list.append(1) 
return default_list 


现在 ， 让 我 们 通过 IPython 研究 : 
In [2]: add_one() 
Out [2]: [1] 


In [3]: add_one() 

Out [3]: [1, 1] 
你 可 能 希望 每 一 个 函数 调用 会 返回 一 个 新 的 列表 ， 只 包含 一 个 元 素 ，1。 相 反 ， 两 个 调用 
修改 相同 的 列表 对 象 而 实际 上 ， 默 认 参 数 在 脚本 第 一 次 解释 的 时 候 被 声明 。 如 果 每 次 你 
都 想 要 一 个 新 的 列表 ， 可 以 像 下 面 一 样 重 写 函 数 。 

def add_one(default_list=None): 

if default_list is None: 
default_list = [] 


default_list.append(1) 
return default_list 


现在 我 们 的 代码 表现 得 同 我 们 期 望 的 一 样 : 


In [6]: add_one() 
Out [6]: [1] 





In [7]: add_one() 
Out [7]: [1] 


In [8]: add_one(default_list=[3]) 
Out [8]: [3, 1] 


现在 你 对 内 存 管理 和 默认 变 i 一 些 了 解 ， 你 可 以 使 用 你 的 知识 来 确定 何 时 检查 ， 以 及 
何 时 在 国 数 与 可 执行 代码 中 赋值 。 深 入 理解 了 Python 何 时 以 何 种 方式 定义 对 象 ， 我 们 可 以 
确保 这 些 “ 陷 阱 ”类 型 不 会 给 我 们 的 代码 添加 bug。 


E.5 “Python 作用 域 与 内 置 函数 : 变量 名 称 的 重要 性 


在 Python 中 ， 作 用 域 的 执行 与 你 的 预期 有 些许 不 同 。 如 果 你 在 函数 作用 域 中 定义 一 
量 ， 这 个 变量 不 被 函数 之 外 所 知 。 让 我 们 看 一 下 : 


In [10]: def foo(): 











本 X = "test" 
In [11] 
NameError Traceback (most recent call last) 
<ipython-input-94-009520053b00> in <module>() 
--> 1 X 


NameError: name 'x' is not defined 
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然而 ， 如 果 之 前 定义 了 x， 我 们 会 得 到 旧 的 定义 : 
in L121 和 SE 1 
In [13]: foo() 


I [14]: Xx 

Out [14]: 1 
这 些 与 内 置 函 数 和 方法 相关 。 如 果 你 不 小 心 重 写 了 它们 ， 从 那 一 刻 之 后 你 都 不 能 再 使 用 它 
们 了 。 所 以 ， 如 果 你 重 写 特殊 的 词 列 表 (tist) 或 日 期 (date) ， 拥 有 这 些 名 字 的 内 置 函 数 
不 会 在 剩余 的 代码 中 正常 执行 〈 或 者 从 那 一 刻 之 后 ) : 


In [17]: from datetime import date 





In [19]: date(2015，2，5) 
Out[19]: datetime.date(2015, 2, 5) 


In [20]: date = 'my date obj' 





In [21]: date(2015, 2, 5) 


TypeError Traceback (most recent call last) 
<ipython-input-105-7f129d4341d0> in <module>() 
--> 1 date(2015, 2, 5) 


TypeError: 'str' object is not callable 


正如 你 所 见 ， 使 用 共享 名 称 的 变量 (或 与 任何 其 他 标准 Python 命名 空间 或 你 使 用 的 任何 其 
se k 享 名 称 ) 可 ee 
变量 或 模块 名 称 ， 就 不 会 花 几 个 小 时 调试 命名 空间 问题 


E.6 定义 对 象 与 修改 对 象 


在 Python 中 ， 定 义 一 个 新 的 对 象 与 修改 一 个 老 对 象 ， 执 行 的 方式 略 有 区 别 。 假 设 你 有 一 个 
国 数 ， 为 一 个 整数 加 1: 
def add_one_int(): 
x += 1 
return x 














如 果 你 尝试 运行 这 段 函 数 ， 应 该 会 收 到 一 个 错误 : UnboundLocalError: local variable 
'x' referenced before assignment。 然 而 ， 如 果 你 在 函数 中 定义 了 x， 会 看 到 不 同 的 结果 : 
def add_one_int(): 
x=0 
x += 1 
return x 


这 段 代 码 有 些 复杂 (为 什么 我 们 不 能 直接 返回 1? )， 但 是 这 里 的 重点 是 ， 我 们 在 修改 变 
量 之 前 需要 先 声 明 变 量 ， 即 使 我 们 使 用 了 一 个 看 起 来 像 赋 值 的 修改 (+=)。 在 处 理 像 列表 
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和 字典 这 样 的 对 象 工作 时 留心 这 一 点 是 特别 重要 的 〈 因 为 我 们 知道 修改 一 个 对 象 会 对 存储 
在 相同 内 存 位 置 的 其 他 对 象 产生 副作用 )。 

需要 记 住 的 是 ， 在 你 想 要 修改 一 个 对 象 和 想 要 创建 或 返回 一 个 新 对 象 时 ， 永 远 要 保持 清晰 
和 明确 。 你 命名 变量 的 方式 ， 以 及 编写 与 实现 函数 的 方式 ， 是 编写 清晰 与 行为 可 预测 的 肢 
本 的 关键 。 


E.7 ”修改 不 可 变 对 象 


想 要 修改 或 改变 不 可 变 对 象 时 ， 你 需要 创建 新 的 对 象 。Python 不 会 允许 你 修改 不 可 变 对 
象 ， 例 如 元 组 。 在 我 们 讨论 Python 内 存 管理 时 ， 你 已 经 知道 一 些 对 象 保存 在 相同 的 空间 
中 。 不 可 变 对 象 不 能 被 改变 ， 它 们 总 是 被 重新 赋值 。 让 我 们 看 一 下 : 


In [1]: my_tuple = (1,) 




















In [2]: new_ tuple = my_tuple 


In [3]: my_tuple 
Out[3]: (1;) 


In [4]: new_tuple 
Out[4]: (1,) 


In [5]: my_tuple += (4, 5) 


In [6]: new_tuple 
Out[6]: (1,) 


In [7]: my_tuple 
Out[7]: (1, 4, 5) 


可 以 看 到 ， 我 们 尝试 使 用 += 操作 符 去 修改 原始 的 元 组 ， 并 且 我 们 能 够 成 功 地 做 到 这 一 点 。 
然而 ， 我 们 得 到 的 是 一 个 包含 原始 元 组 和 追加 了 元 组 (4，5) 的 新 对 象 。 我 们 最 终 没 有 改 
变 new_tuple 变量 ， 因 为 我 们 只 是 将 内 存 中 的 一 个 新 地 址 赋 给 新 的 对 象 。 如 有 果 你 在 查看 += 
操作 之 前 和 之 后 查看 内 存 地 址 ， 你 会 看 到 它 的 改变 。 


关于 不 可 变 对 象 需要 记 住 的 重点 是 ， 当 改变 它们 的 时 候 ， 它 们 不 会 使 用 内 存 中 相同 的 地 
址 ， 如 果 你 修改 它们 ， 你 实际 上 在 创建 全 新 的 对 象 。 如 果 你 使 用 一 个 拥有 不 可 变 对 象 的 类 
的 方法 或 属性 ， 尤 其 要 记 住 这 一 点 ， 因 为 你 要 确保 自己 知道 何 时 在 修改 它们 ， 何 时 在 创建 
新 的 不 可 变 对 象 。 


E.8 类 型 检查 


Python 允许 简单 的 类 型 转换 ， 这 意味 着 你 可 以 将 字符 串 转换 为 整数 或 将 列表 转换 为 元 组 ， 
等 等 。 但 是 这 些 动态 类 型 意味 着 可 能 会 引发 问题 ， 特 别 是 在 大 型 的 代码 仓库 中 ， 或 在 你 使 
用 新 的 库 时 。 常 见 问题 是 一 些 特定 的 函数 、 类 或 方法 对 应 着 一 些 特定 的 对 象 类 型 ， 而 你 传 
递 了 错误 的 类 型 。 
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随 着 你 的 代码 变 得 更 高 级 和 复杂 ， 问 题 会 变 得 越 来 越 难 办 。 由 于 你 的 代码 更 加 抽象 ， 你 会 
将 所 有 的 代码 保存 在 变量 中 。 如 果 一 个 国 数 或 方法 返回 一 个 不 符 预期 的 类 型 (例如 None 而 
不 是 列表 ) ， 这 个 对 象 可 能 被 传递 到 另 一 个 国 数 中 可 能 是 一 个 不 接受 None 类 型 的 函数 ， 
之 后 抛 出 一 个 错误 。 很 可 能 错误 被 捕 歼 了 ， 但 代码 会 认为 异常 是 因为 另外 的 问题 触发 的 ， 
并 且 继 续 执行 。 这 会 很 快 地 脱离 你 的 控制 ， 并 且 变 成 一 个 相当 难以 调试 的 问题 。 

对 于 如 何 处 理 这 些 问 题 ， 最 好 的 建议 是 编写 非常 精准 又 清晰 的 代码 。 你 应 该 积极 测试 你 的 
代码 (确保 没有 bug)， 持 续 关注 你 的 脚本 ， 并 注意 任何 反常 的 行为 ， 以 此 确保 函数 永远 返 
回 期 待 的 内 容 。 你 还 需要 添加 日 志 来 帮助 确认 对 象 包含 的 内 容 。 除 此 之 外 ， 清 楚 你 捕获 的 
异常 ， 而 不 只 是 捕获 所 有 的 异常 ， 这 会 帮助 你 更 容易 地 找到 和 修复 问题 。 

最 后 ， 有 时 Python 会 实现 PEP-484 (https:/www.python.org/dev/peps/pep-0484/)， 它 包含 了 
类 型 提示 ， 人 允许 你 检查 传递 的 变量 和 代码 ， 以 自我 检查 这 些 问题 。 这 在 未 来 Python 3 发 布 
之 前 可 能 不 会 被 合并 ， 但 是 好 消息 是 ， 这 已 经 在 进行 当中 ， 你 可 以 期 竺 在 未 来 看 到 更 多 的 
有 关 类 型 检查 的 结构 。 


E.9 捕获 多 个 异常 


随 着 代码 的 发 展 ， 你 会 想 要 在 同一 行 代码 中 捕获 多 个 异常 。 举 个 例子 ， 你 可 能 想 要 捕获 一 
个 TypeError， 同 时 还 有 AttributeError。 如 果 你 以 为 传递 的 是 一 个 字典 ， 而 实际 上 传递 的 
是 一 个 列表 ， 可 能 就 是 这 种 情况 。 它 可 能 有 一 些 相同 的 属性 ， 但 是 不 是 所 有 属性 。 如 果 你 
需要 在 一 行 中 捕获 多 个 类 型 的 错误 ， 就 必需 在 元 组 中 编写 异常 ， 让 我 们 看 一 下 : 


my_dict = {'foo': {}, 'bar': None, 'baz': []} 



























































for k, v in my_dict.items(): 
try: 
Vv.items() 
except (TypeError, AttributeError) as e: 
print "We had an issue!" 
print e 


你 应 该 会 看 到 下 面 的 输出 (很 可 能 呈现 顺序 不 同 ) : 


We had an issue! 

'list' object has no attribute "items ' 

We had an issuel! 

'NoneType' object has no attribute 'items’ 


我 们 的 异常 成 功 地 捕获 了 两 个 错误 并 执行 了 异常 代码 块 。 正 如 你 所 见 ， 意 识 到 你 需要 捕获 
的 错误 的 类 型 ， 并且 理 解 语法 (将 其 放 到 元 组 中 ) 对 你 的 代码 来 说 是 必需 的 。 如 果 你 简单 
地 列 出 它们 (通过 一 个 列表 或 只 是 通过 逗号 分 隔 )， 你 的 代码 可 能 不 会 正常 地 执行 ， 而且 
你 不 会 捕获 到 这 两 个 异常 。 


E.10 调试 的 力量 


随 着 你 成 为 一 名 更 加 高 级 的 开发 者 和 数据 处 理 者 ， 你 会 遇 到 更 多 的 问题 和 错误 来 调试 。 我 
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们 希望 可 以 告诉 你 它 会 变 得 更 简单 ， 但 是 在 它 变 简单 之 前 ， 你 的 调试 过 程 会 更 加 集中 和 严 
说 。 这 是 因为 你 会 用 到 更 高 级 的 代码 和 库 ， 处 理 更 加 困难 的 问题 。 

即便 如 此 ， 你 拥有 很 多 技术 和 工具 ， 可 以 帮助 你 脱离 困境 。 你 可 以 在 Python 中 执行 代码 ， 
在 开发 过 程 中 得 到 更 多 反馈 。 你 可 以 添加 日 志 到 脚本 中 ， 以 更 好 地 理解 发 生 了 什么 。 如 果 
解析 网 页 时 遇 到 问题 ， 你 可 以 让 抓 取 嚣 截屏， 并 将 它们 保存 到 文件 中 。 你 可 以 在 IPython 
notebook 中 与 其 他 人 分 享 代码 ， 或 者 在 其 他 许多 有 帮助 的 站 点 分 享 代 码 ， 以 得 到 反馈 。 


Python 中 同样 有 一 些 很 棒 的 调试 工具 ， 包 括 pdb (https://docs.python.org/2/library/pdb. 
html)， 它 允许 你 逐 句 执行 代码 (或 模块 中 的 其 他 代码 )， 并 且 在 所 有 的 错误 前 后 ， 精 确 地 
看 到 每 个 对 象 保存 的 内 容 。YouTube 上 有 一 个 很 棒 的 关于 pdb 的 快速 介绍 (https://www. 
youtube.com/watch?v=bZZTeKPRSLQ)， 展 示 了 一 些 在 代码 中 使 用 pdb 的 方式 。 


除 此 之 外 ， 你 需要 阅读 并 编写 文档 和 测试 。 在 本 书 中 我 们 已 经 介绍 了 一 些 基础 ， 但 是 我 们 
强 列 建 议 你 将 本 书 作 为 一 个 起 点 ， 并 在 将 来 进一步 研究 文档 和 测试 。Ned Batchelder 最 近 
关于 上 手 测 试 的 PyCon 讲座 (https:/www.youtube.com/watch?v=FxSsnHeWQBY) 是 一 个 
好 的 起 点 。Jacob Kaplan-Moss 在 PyCon 2011 上 也 做 了 一 个 很 棒 的 关于 文档 的 讲座 (https:/ 
www.youtube.com/watch?v=z3fRu9pkuXE)。 通 过 阅读 和 编写 文档 ， 以 及 编写 和 执行 测试 ， 
你 可 以 确保 没有 因为 错误 的 信息 而 将 错误 引入 代码 ， 或 没有 因为 未 做 测试 而 遗留 错误 。 

我 们 希望 本 书 是 这 些 概念 的 优秀 入 门 介绍 ， 但 是 我 们 鼓励 你 继续 阅读 和 开发 ， 通 过 寻找 更 
多 的 Python 学 习 资 源 ， 成 为 一 名 更 出 色 的 Python 开发 者 。 
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附录 F 
IPython 指南 





尽管 你 的 Python shell 是 有 用 的 ， 但 它 缺 少 了 IPython (http://ipython.org/) 的 很 多 魔力 。 
IPython 是 一 个 增强 的 Python shell， 提 供 了 一 些 易于 使 用 的 快捷 方式 和 在 shell 环境 中 
同 Python 交互 的 额外 能 力 。 它 最 初 由 想 要 一 个 更 简单 的 Python shell 的 科学 家 和 学 生 开 
发 〈http:/Wblog.fperez.org/2012/0LUipython-notebook-historical.html) 。 后 来 ， 它 变 成 了 学 习 
Python 以 及 通过 解释 器 与 Python 交互 的 事实 上 的 标准 。 


F.1 为 什么 使 用 IPython 


IPython 提供 了 很 多 在 标准 Python shell 中 缺少 的 功能 。 安 装 和 使 用 了 Python 作为 你 的 shell 
有 很 多 好 处 。 它 的 特性 包括 : 

。 易于 阅读 的 文档 钩子 

。 自动 补 全 和 用 于 库 、 类 和 对 象 探索 的 魔法 命令 
































。 用 来 训 览 历史 、 创 建文 件 、 调 试 脚 本 、 重 新 加 载 脚本 等 的 辅助 工具 

。 内 置 的 命令 行 工具 帮助 

。 启动 时 的 自动 导入 

它 也 是 Jupyter (https://jupyter.org/) 的 一 个 重要 组 成 部 分 。Jupyter 是 一 个 共享 的 notebook 
服务 器 ， 可 以 快速 方便 地 在 浏览 器 中 进行 数据 探索 。 我们 在 第 10 章 中 介绍 了 使 用 Jupyter 
进行 代码 分 享 和 演示 。 


F.2 1Python 起 步 


IPython 可 以 用 pip 方便 地 安装 : 
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pip install ipython 


如 果 你 正在 使 用 多 个 虚拟 环境 ， 可 能 想 要 安装 全 局 IPython， 或 在 每 个 虚拟 环境 中 都 安装 
一 个 。 为 了 开始 使 用 IPython， 直 接 在 终端 窗口 中 输入 ipython。 你 应 该 会 看 到 一 个 类 似 这 
样 的 提示 : 

$ ipython 


Python 2.7.6 (default, Mar 22 2014, 22:59:56) 
Type "copyright", "credits" or "license" for more information. 





IPython 1.2.1 -- An enhanced Interactive Python. 

2 -> Introduction and overview of IPython's features. 
%quickref -> Quick reference. 

help -> Python's own help systenm. 

object? -> Details about 'object', use 'object??' for extra details. 
In [14]s 


现在 你 可 以 输入 Python 命令 ， 就 像 在 普通 的 Python shell 中 一 样 。 例 如 : 


In [1]: 1+1 
out[1]: 2 





In [2]: from datetime import datetime 


In [3]: datetime.now() 
Out[3]: datetime.datetime(2015, 9, 13, 11, 47, 49, 191842) 


当 需 要 退出 shell 时 ， 你 可 以 输入 quit()、exit(),， 或 者 在 Windows/Linux 上 输入 Ctrl-D， 
在 Mac 上 输入 Cmd-D。 


F.3 魔法 函数 

IPython 有 大 量 所 谓 的 魔法 函数 ， 能 在 探索 和 编程 的 时 候 帮 助 你 。 这 里 有 一 些 非常 重要 的 
函数 ， 特 别 是 对 于 初级 开发 者 来 说 。 

为 了 看 到 你 已 经 导入 和 活动 的 对 象 ， 可 以 输入 %whos 或 %who。 让 我 们 看 一 下 它们 的 用 法 : 


In [1]: foo =1+4 














工 首开 2 二 bar :=: [22 4, 6] 

In [3]: from datetime import datetime 
In [4]: baz = datetime.now() 

In [5]: %who 


bar baz datetime foo 


In [6]: %whos 


VariabLe Type Data/Info 

bar list n=4 

baz datetime 2015-09-13 11:53:29.282405 
datetime type <type 'datetime.datetime'> 
foo int 号 
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在 你 忘记 了 变量 名 称 或 者 想 要 通过 一 个 简洁 的 列表 看 到 在 变量 中 存储 的 内 容 时 ， 这 非常 有 用 。 


另外 一 个 有 用 的 工具 是 快速 查找 与 库 、 类 或 对 象 相 关 的 文档 的 能 力 。 如 果 你 在 方法 、 类 、 库 或 
属性 名 称 的 最 后 输入 一 个 ?，IPython 会 尝试 获取 所 有 相关 的 文档 ， 内 联 地 展示 它 。 举 个 例子 : 
In [7]: datetime.today? 
Type: builtin function_or_method 
String Form:<built-in method today of type object at 0x7f95674e0a00> 


Docstring: Current date or datetime: 
same as self._ class__.fromtimestamp(time.time()). 


有 大 量 与 此 类 似 的 IPython 扩展 和 函数 ， 对 开发 极其 有 用 ， 特 别 是 随 着 你 作为 一 名 开发 者 
不 断 成 长 ， 磁 到 更 加 复杂 的 问题 时 。 表 F-1 列 出 了 最 为 有 用 的 几 个 工具 ， 网 络 上 还 有 一 
些 非 常 棒 的 演讲 稿 和 会 议 演 讲 (http://ipython.org/presentation.html) 以 及 交互 示例 (http:/ 
nbviewer.jupyter.org/github/ipython/ipython/blob/master/examples/Index.ipynb) ， 此 外 还 有 关 
于 库 的 非常 棒 的 文档 (http:Wipython.org/documentation.html) 。 





所 有 的 IPython 扩展 必需 在 IPython 会 话 的 开始 使 用 %Load_ext extension_name 
加 载 。 如 果 你 想 要 安装 额外 的 扩展 ，GitHub 上 有 一 个 非常 棒 的 可 用 扩展 及 其 
使 用 方式 的 列表 (https://github.com/ipython/ipython/wiki/Extensions-Index ) 。 














表 F-1: 有 用 的 IPython 扩 展 与 函数 

命令 描述 目的 文档 

%autoreload ”人 允许 你 只 通过 一 次 调用 重 在 编辑 器 中 修改 脚本 、 在 http://ipython.org/ipython-doc/dev/ 
新 加 载 所 有 导入 的 脚本 ”IPython shell 中 调试 脚本 ，config/extensions/autoreload.html 



























































































































































进行 活跃 开发 的 时 候 ， 非 
常 有 帮助 
%store 允许 你 存储 保存 的 变量 ， 在 需要 保存 一 些 经 常 使 用 http://ipython.org/ipython-doc/dev/ 
在 下 一 个 会 话 中 使 用 的 变量 ， 或 者 你 的 工作 被 config/extensions/storemagic.html 
中 断 因而 需要 保存 当前 的 
工作 供 以 后 使 用 时 ， 非 党 
有 帮助 
%history 打印 你 的 会 话 历史 展示 你 已 经 运行 过 的 命令 https://ipython.org/ipython-doc/dev/ 
的 输出 interactive/magics.html#magic-history 
%pdb ] 于 过 程 较 长 的 调用 的 交 强 有 力 的 调试 库 ， 在 导入 https://ipython.org/ipython-doc/dev/ 
互 式 调试 模块 了 较 长 的 脚本 或 模块 时 特 interactive/magics.html#magic-pdb 
别 有 用 
%pylab 引 入 numpy 和 matplotlib 人 允许 你 在 IPython shell 中 https://ipython.org/ipython-doc/dev/ 
来 与 你 的 会 话 交 互 式 工 作 ”使 用 统计 和 图 表 工 具 interactive/magics.html#magic-pylab 
%save 保存 你 的 会 话 历史 到 一 个 如 果 你 花费 了 很 长 的 时 间 https://ipython.org/ipython-doc/dev/ 
输出 文件 调试 ， 这 是 一 个 开始 编写 interactive/magics.html#magic-save 
脚本 的 好 方式 
%timeit 计算 代码 中 一 行 代 码 或 多 用 于 对 Python 脚本 和 国 https://ipython.org/ipython-doc/dev/ 
行 代码 的 执行 时 间 数 进行 性 能 调 优 interactive/magics.html#magic-timeit 
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还 有 很 多 可 用 的 魔法 命令 (https://ipython.org/ipython-doc/dev/interactive/magics.html)。 它 
们 的 有 用 性 取决 于 你 在 开发 中 使 用 IPython 的 方式 ， 但 是 随 着 你 作为 一 名 开发 者 不 断 成 长 ， 
使 用 它们 会 通过 IPython 为 你 简化 其 他 的 任务 。 


F.4 最 后 的 思考 : 一 个 简单 的 终端 


无 论 是 只 在 一 个 notebook 中 ， 还 是 在 一 个 活跃 的 终端 开发 中 使 用 了 Python， 我 们 相信 它 会 
帮助 你 编写 和 理解 Python， 并 且 帮 助 你 成 长 为 一 个 优秀 的 开发 者 。 你 早期 的 开发 主要 是 
探索 Python 如 何 工 作 ， 以 及 在 开发 过 程 中 会 遇 到 的 错误 和 异常 。IPython 对 这 些 任务 很 在 
行 ， 因 为 你 可 以 在 下 一 行 输入 中 重 试 代码 。 我 们 希望 IPython 会 在 未 来 数 年 伴随 你 学 习 和 
编写 Python。 
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附录 G 


使 用 亚马逊 网 络 服务 











如 果 开 始 为 数据 处 理 需 求 使 用 亚马逊 和 亚马逊 去 服务， 你 首先 需要 一 个 设置 好 以 供 使 用 的 
服务 器 。 我 们 会 学 习 如 何 让 你 的 第 一 台 服 务 器 就 绪 并 且 运 行 。 

在 第 10 章 ， 我 们 介绍 了 AWS 之 外 的 一 些 选择 ， 包 括 DigitalOcean、Heroku、GitHub 
Pages， 以 及 使 用 一 个 托管 服务 提供 商 。 根 据 你 对 不 同 部 署 与 服务 器 环境 的 兴趣 ， 建 议 使 用 
多 个 选项 ， 然 后 选择 最 适合 你 的 选项 。 

AWS 作为 第 一 个 云 平 台 而 流行 ， 但 是 它 同样 会 带 来 许多 困扰 。 我 们 想 要 包含 一 个 教程 来 
帮助 你 浏览 整个 过 程 。 我 们 同样 强烈 建议 使 用 DigitalOcean 作为 进入 云 的 开始 ， 它 们 的 教 
程 (https://www.digitalocean.com/help/getting-started/setting-up-your-server/) 和 指引 (https:// 



































www.digitalocean.com/community/tutorials/initial-server-setup-with-ubuntu-14-04) 是 非常 有 帮 


助 的 。 


G.1 启动 AWS 服 务 器 


为 了 启动 一 个 服务 器 ， 在 AWS 控制 台 (https://console.aws.amazon.com) 选择 “Compute” 
下 的 “EC2”( 你 需要 登录 或 创建 一 个 账户 来 访问 控制 台 )。 这 会 带 你 来 到 EC2 着 陆 页 
(https:Wconsole.aws.amazon.comy/ec2/v2/home) 。 在 这 里 ， 点 击 “Launch Instance” 按 钮 。 

这 时 ， 你 会 开始 跟随 一 个 教程 来 设置 你 的 实例 。 你 在 这 里 选择 的 所 有 东西 都 是 可 编辑 的 ， 
所 以 不 知道 选择 什么 也 不 必 担 心 。 这 本 书 提供 了 以 廉价 又 快速 的 方式 设置 并 运行 服务 器 的 
建议 ， 但 这 不 意味 着 这 就 是 你 需要 的 解决 方案 。 如 果 你 碰 到 了 空间 等 问题 ， 可 能 需要 一 个 
更 大 因而 也 更 贵 的 配置 / 实例 。 


在 下 面 的 这 一 小 市 里 ， 我 们 会 带 着 你 浏览 一 遍 我 们 推荐 的 设置 。 
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G.1.1 AWS 步 骤 1: 选择 一 个 亚马逊 机 器 镜像 (AM1) 

机 器 镜像 基本 上 是 一 个 操作 系统 镜像 (或 快照 )。 最 普遍 的 操作 系统 是 Windows 和 OS X。 
然而 ， 基 于 Linux 的 系统 通常 用 作 服 务 器 。 我 们 推荐 最 新 的 Ubuntu 系统 ， 在 本 书 编写 时 的 
版 本 为 “Ubuntu Server 14.04 LTS (HVM), SSD Volume Type - amid05e75b8”。 





G.1.2 AWS 步 又 2: 选择 一 个 实例 类 型 


实例 类 型 是 你 启动 的 服务 器 的 容量 。 选 择 “t2.micro (Free tier eligible)”。 不 要 扩容 ， 除 非 你 
明确 需要 ， 因 为 这 样 会 浪费 钱 。 为 了 学 习 更 多 关于 实例 的 知识 ， 查 看 AWS 关于 实例 类 型 
(https://aws.amazon.com/ec2/instance-types/) 与 价格 (https://aws.amazon.com/ec2/pricing/) 
的 文章 。 

选择 “Review and Launch”， 这 将 带 你 到 第 7 步 。 


G.1.3 AWS 步 又 7: 学 习 实 例 启 动 

在 页 面 的 顶部 ， 你 会 注意 到 一 条 信息 :“ 提 高 你 的 实例 安全 。 你 的 安全 组 ，launch- 
wizard-4， 正 对 全 世界 开放 。” 对 于 真正 的 产品 实例 ， 或 带 有 敏感 信息 的 实例 ， 强 烈 建 议 提 
高 安全 ， 同 时 采用 其 他 的 安全 措施 。 查 看 AWS 的 文章 “加 强 你 的 EC2 实例 安全 的 建议 ” 
(https://aws.amazon.com/articles/ 1233/) 。 


G.1.4 AWS 额 外 问题 :选择 一 个 存在 的 键 对 或 创建 一 个 新 的 


一 个 键 对 类 似 于 一 个 服务 器 的 键 集合 ， 这 样 服务 器 知道 谁 有 权利 使 用 。 选 择 “Create a new 
key pair” 并 且 给 它 命 名 。 我 们 已 经 命名 我 们 的 实例 为 data-wrangling-test， 但 是 你 可 以 给 它 
取 任 何 你 可 以 识别 的 名 字 。 当 你 完成 时 ， 下 载 键 对 到 一 个 你 可 以 在 随后 找到 的 地 方 。 


最 后 ， 点 击 “Launch Instances”。 启 动 实例 后 ， 你 会 在 屏幕 上 得 到 一 个 实例 ID。 









































如 果 你 担心 服务 器 花 销 ， 在 AWS 首选 项 中 创建 一 个 账单 报警 (https://console. 


aws.amazon.com/billing/home?#/preferences) 





G.2 ”登录 WS 服务 器 


为 了 登录 到 服务 器 上 ， 你 需要 进入 AWS 控制 台 的 实例 来 得 到 更 多 的 信息 。 在 控制 台中 ， 
选择 EC2， 之 后 选择 “1 Running Instance” (如果 你 有 不 止 一 个 实例 ， 数 字 会 增 大 )。 你 会 
看 到 你 的 服务 器 列表 。 除 非 你 提供 过 名 称 ， 否 则 你 的 服务 器 不 会 拥有 名 称 。 通 过 点 击 列表 
上 的 空 框 ， 为 你 的 实例 命名 。 我 们 将 其 命名 为 data-wrangling-test， 以 便 持久 化 。 

为 了 登录 到 我 们 的 服务 器 上 ， 我 们 会 跟随 一 篇 关于 连接 到 Linux 实例 的 AWS 文章 (http:// 
docs.aws.amazon.com/AWSEC2/latest/UserGuide/EC2_GetStarted.html#ec2-connect-to- 


instance-linux) 的 指示 。 








使 用 亚马逊 网 络 服务 | 375 


G.2.1 得 到 实例 的 公共 DNS 名 称 


公共 DNS 名 称 是 实例 的 Web 地 址 。 如 果 你 有 一 个 看 起 来 像 Web 地 址 的 值 ， 继 续 阅 
读 下 一 个 小 节 。 如 果 值 为 “-- ， 那 么 你 需要 跟随 下 面 这 些 额 外 的 步骤 (来 自 Stack 
Overflow , http://stackoverflow.com/questions/20941704/ec2-instance-has-no-public- 
dns/26403671#26403671) 。 


() 访问 console.aws.amazon.com。 

(2) 访问 Services (顶部 导航 ) 一 VPC (接近 列表 的 末尾 )。 
(3) 打开 你 的 VPC ( 左 侧 栏 目 )。 

(4) 选择 连接 到 你 的 EC2 的 VPC。 

(3) 在 “Actions” 下 拉 菜 单 ， 选 择 “Edit DNS Hostnames”。 
(6) 修改 “Edit DNS Hostnames” 为 “Yes 。 


如 果 你 返回 EC2 实例 ， 应 该 看 到 它 现 在 有 了 一 个 公共 DNS 名 称 。 


G.2.2 ”准备 你 的 私 钥 


你 的 私 钥 是 一 个 下 载 的 .pem 文件 。 将 它 移 动 到 一 个 你 了 解 并 且 能 够 记 住 的 文件 夹 是 好 的 
想法 。 对 于 基于 Unix 的 系统 ， 你 的 密 钥 会 保存 在 home 目录 下 名 为 .ssh 的 文件 夹 。 对 于 
Windows， 默 认 的 位 置 是 C:\Documents and Settings\.ssh\ 或 CUsers\ssh。 你 需要 复制 你 
的 .pem 文件 到 这 些 文件 夹 。 


然后 ， 你 需要 运行 chmod 命令 来 改变 .pem 文件 的 权限 为 86。 修改 权限 为 469 意味 着 ， 文 
件 只 能 被 所 有 者 访问 。 这 保证 了 在 多 账户 计算 机 环境 下 文件 的 安全 : 


chmod 400 .ssh/data-wrangLing-test.pem 


G.2.3 登录 你 的 服务 器 
现在 ,你 已 经 有 了 所 有 登录 服务 器 所 需 的 一 切 。 运 行 下 面 的 命令 ,但 是 用 你 的 键 对 替换 
my-key-pair.pem， 同 时 用 你 的 公开 Web 地 址 替换 public_dns_name: 
ssh -i ~/.ssh/my-key-pair.pem_ ubuntu@_public_dns_name 
例如 : 


ssh -i data-wrangling-test.pem UbuntuQec2-12-34-56-128.compute-1.amazonaws .Com 












































当 提 示 “Are you sure you want to continue connecting (yes/mno)?” 时 ， 输 入 yes。 

现在 ， 你 的 提示 会 有 一 些 轻微 的 改变 ， 说 明 你 正 位 于 你 创建 的 控制 台中 。 你 现在 可 以 继续 
设置 你 的 服务 器 ， 将 代码 部 团 到 服务 器 上 ， 设 置 在 服务 器 上 运行 的 自动 化 程序 。 在 第 14 
章 你 可 以 阅读 更 多 关于 部 署 代码 到 新 服务 器 上 的 知识 。 

为 了 退出 服务 器 ,输入 Ctrl-C 或 Cmd-C。 
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G.3 小 结 


现在 你 已 经 有 了 第 一 个 设置 好 并 且 运 行 起 来 的 AWS。 使 用 在 第 14 章 学 到 的 知识 将 代码 部 
署 到 服务 器 ， 并 且 立 即 运行 你 的 数据 处 理 程序 。 
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jackiekazil) ， 也 可 以 关注 她 的 博客 The coderSnorts (https:Wmedium.comy/coder-snorts ) 。 


Katharine Jarmul 是 一 名 Python 开发 者 ， 她 喜欢 数据 分 析 和 获取 、 网 页 抓 取 、 教 人 学 
习 Python 以 及 与 Unix 有 关 的 一 切 。 她 曾 在 大 大 小 小 的 创业 公司 工作 ， 然 后 开始 了 海外 
咨询 业务 。 最 初 在 洛杉矶 ， 她 于 2008 年 在 《 华 总 顿 邮 报 》 工 作 时 学 习 了 Python。 作 为 
PyLadies 的 创始 人 之 一 ，Katharine 希望 通过 教育 和 培训 来 促进 Python 和 其 他 开源 语言 的 
多 元 化 。 她 领导 了 许多 研讨 会 与 辅导 班 ， 其 内 容 从 Python 入 门 主题 到 Python 高 级 话题 。 
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关于 封面 

本 书 封 面 上 的 动物 是 一 只 蓝 层 树 蜥 (blue-lipped tree lizard， 拉 丁 名 为 Plica umbra) 。Plica 
属 的 成 员 都 是 中 等 大 小 ， 有 尽管 它们 属于 俗称 的 新 热带 地 蜥 (neotropical ground lizard) 科 ， 
但 主要 生活 在 南美 洲 和 加 勒 比 地 区 的 树 上 。 蓝 唇 树 蜥 主要 以 蚂蚁 为 食 ， 并 且 是 Plica 属 中 
唯一 不 以 脖子 上 的 一 东 刺 为 特征 的 物种 。 

O "Reilly 图 书 封面 上 的 很 多 动物 都 是 濒危 动物 ， 它 们 对 世界 都 很 重要 。 想 要 详细 了 解 如 何 
帮助 这 些 动物 ， 请 访问 animals.oreilly.com。 


封面 图 片 来 自 于 Lydekker 的 Natural History。 
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Python 数 据 处 理 


用 传统 的 电子 表格 来 处 理 数 据 不 仅 效率 低下 ， 而 且 无 法 处 理 某 些 格式 的 
数据 ， 对 于 混乱 或 庞大 的 数据 集 更 是 束手无策 。 本 书 将 教 你 如 何 利 用 语 
法 简单 、 容 易 上 手 的 Python 轻松 处 理 数 据 。 作 者 通过 循序 渐进 的 练习 ， 
详细 介绍 如 何 有 效 地 获取 、 清 洗 、 分 析 与 呈现 数据 ， 如 何 将 数据 处 理 过 
程 自 动 化 ， 如 何 安排 文件 编辑 与 清洗 任务 ， 如 何 处 理 更 大 的 数据 集 ， 以 
及 如 何 利用 获取 的 数据 来 创作 引人入胜 的 故事 。 学 完 本 书 ， 你 的 数据 处 
理 和 分 析 能 力 将 更 上 一 层 楼 。 


加 快速 了 解 Python 基本 语法 、 数 据 类 型 和 语言 概念 

罩 概述 数据 的 获取 与 存储 方式 

加 清洗 数据 并 格式 化 ， 以 消除 数据 集中 的 重复 值 与 错误 

是 学 习 何 时 对 数据 进行 标准 化 ， 何 时 对 数据 清理 进行 测试 并 将 其 脚 
本 化 

国 使 用 Scrapy 写 网 络 怜 虫 

国 利用 新 的 Python 库 和 技术 对 数据 集 进行 探索 与 分 析 

回 使 用 Python 解决 方案 将 整个 数据 处 理 过 程 自动 化 
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至 关系 型 数据 库 ) 无 法 回答 你 
想 要 提出 的 问题 ， 或 者 除 这 些 
工具 之 外 你 准备 进一步 学 习 ， 那 
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